推荐 序 一 


技术 日 新 月 异 ， 产 业 斗 转 星 移 ， 滚 滚 红 尘 ， 消 逝 的 事物 太 多 ， 新 事物 的 诞生 也 更 迅猛 。 众 多 新 生 事物 如 灿烂 烟花 ， 转 瞬 即 逝 。 当 我 们 仰望 星空 时 ， 在 浩如烟海 的 专业 名 词 中 寻找 ， 赫 然 发 现 ，Linux 的 生 
命 力 之 旺盛 顽强 ， 斗 志 之 昂扬 雄壮 ， 令 人 称奇 。 它 正 以 挫 枯 拉 梧 之 势 迅 速 占 领 包括 服务 器 、 云 计算 、 消 费 电 子 、 工 业 控制 、 仪 器 仪表 、 导 航 娱 乐 等 在 内 的 众多 应 用 领域 ， 并 逐步 占据 许多 WINCE、VxWorks 
的 传统 嵌入 式 市 场 。 


Linux 所 及 之 处 ， 所 向 披 靡 。 这 与 Linux 的 社区 式 开发 模式 ， 迅 速 的 迭代 不 无 关系 。Linux 每 2~3 月 更 新 一 次 版 本 ， 吸 纳 新 的 体系 架构 、 汞 片 支持 、 了 驱动、 内核 优化 和 新 特性 ， 这 使 得 Linux 总 是 能 够 在 第 一 
时 间 内 迎合 用 户 的 需求 ， 快 速 地 适应 瞬息 万 变 的 市 场 。 由 Linux 以 及 围绕 着 Linux 进 行 产品 研发 的 众多 企业 和 爱好 者 构成 了 一 个 庞大 的 Linux 生 态 圈 。 而 本 书 ， 无 疑 给 这 个 庞大 的 生态 圈 注 入 了 养料 。 


然而 ， 养 料 的 注入 应 该 是 持续 不 断 的 。 至 今 ，Linux 内 核 的 底层 BSP、 驱 动 框 架 和 内 核实 现 发 生 了 许多 变更 ， 本 书 涵盖 了 这 些 新 的 变化 ， 这 将 给 予 开 发 者 更 多 新 的 帮助 。 内 核 的 代码 不 断 重 构 并 最 优化 ， 
而 本 书 也 无 疑 是 一 次 重大 的 重 构 。 


EPRE, EHRE 


推荐 序 二 


在 翻译 了 《Understanding the Linux Kernel》 和 《Linux Kernel Development》 这 两 本 书后 ， 每 当 有 读者 询问 如 何 学 习 Linux 内 核 时 ， 我 都 不 敢 贸 然 给 出 建议 。 如 此 庞大 的 内 核 ， 各 个 子 系统 之 间 的 关系 错 综 
复杂 ， 代 码 不 断 更 新 和 和 迭代 ， 到 底 该 从 何 入 手 ? 你 的 出 发 点 是 哪里 ?你 想 去 的 彼岸 又 是 哪里 ? 相应 的 学 习 方法 都 不 同 。 


一 旦 路 入 Linux 内 核 领域 ， 要 精通 Linux 内 核 的 精 葛 ， 几 乎 没有 捷径 可 走 。 尽 管 通 往 山顶 的 路 有 无 数 条 ， 但 每 条 路 上 都 布 满 齐 坏 ， 或 许 时 间 和 毅力 才 是 斩 剂 披 环 的 利器 。 


从 最 初 到 现在 ，Linux 内 核 的 版 本 更 新 达 上 千 个 ， 代 码 规模 不 断 增 长 ， 平 均 每 个 版 本 的 新 增 代码 有 4 万 行 左右 。 在 源 代码 的 10 个 主要 子 目 录 (arch, init, include, kernel, mm, IPC, fs, lib. net, 
drivers) 中 ， 了 驱动 程序 的 代码 量 呈 线性 增长 趋势 。 


从 软件 工程 角度 来 看 内 核 代码 的 变化 规律 ，Linux 的 体系 结构 相对 稳定 ， 子 系统 数 变 化 不 大 ， 平均 每 个 模块 的 复杂 度 呈 下 降 趋 势 ， 但 系统 整体 规模 和 复杂 性 分 别 呈 超 线 性 和 接近 线性 增长 趋势 。drivers 和 
atch 等 模块 的 快速 变化 是 引起 系统 复杂 性 增加 的 主因 。 那 么 ， 在 代码 量 最 多 的 驱动 程序 中 ， 有 什么 规律 可 循 ?9 最 根本 的 又 是 什么 ? 


本 书 更 多 的 是 关于 Linux 内 核 代码 背后 机 理 的 讲解 ， 呈 现 给 读者 的 是 一 种 思考 方法 ， 让 读者 能 够 在 思考 中 举一反三 。 尽 管 驱动 程序 只 是 内 核 的 一 个 子 系 统 ， 但 Linux 内 核 是 一 种 整体 结构 ， 宰 一 发 而 动 全 
局 ， 对 Linux 内 核 其 他 相关 知识 的 掌握 是 开发 驱动 的 基础 。 本 书 的 内 容 包 括 中 断 、 定 时 器 、 进 程 生命 周期 、uevent、 并 发 、 编 译 乱 序 、 执 行 乱 序 、 等 待 队 列 、I/ 〇 模型、 内 存 管 理 等 ， 实 例 代码 也 被 大 幅 重 构 。 


明代 著名 的 思想 家 王 明 阳 有 各 名 言 “ 知 而 不 行 ， 是 为 不 知 ; 行 而 不 知 ， 可 以 致知 。 因 此 在 研读 本 书 时 ， 你 一 定 要 亲身 实践 ， 在 实践 之 后 要 提升 思考 ， 如 此 ， 你 才 可 以 越过 代码 本 身 而 看 到 内 核 的 深层 
机 理 。 


陈 莉 君 
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Linux 从 未 停歇 前 进 的 脚步 。Linus Torvalds， 世 界 上 最 伟大 的 程序 员 之 一 ，Linux 内 核 的 创始 人 ，Git 的 缔造 者 ， 现 在 仍然 在 没 日 没 夜 地 合并 补丁 、 升 级 内 核 。 做 技术 的 人 ， 从 来 没有 终 南 捷径 ， 拼 得 就 是 
EAER o 


这 是 一 个 连 阅读 都 被 碎片 化 的 时 代 ， 在 这 样 一 个 时 代 ， 人 们 趋向 于 激进 、 浮 踩 ， 内 心 的 不 安宁 使 我 们 极 难 静 下 心 来 研究 什么 。 我 见 过 许多 Linux 工 程 师 ， 他 们 的 简历 上 写 着 “精通 ”Linux 内 核 ， 有 多 年 的 
工作 经 验 ， 而 他 们 的 “精通 ” 却 只 是 把 某 个 寄存 器 从 0 改 成 1 ， 从 1 改 成 0 的 不 断 重复 ; 我 也 见 过 许多 Linux 工 程 师 ， 他 们 终日 埋头 若干 ， 敲 打 着 自己 的 机 器 和 电路 板 ， 却 从 未 冷静 下 来 思考 ， 并 不 断 重 构 和 升华 
自己 的 知识 体系 。 


这 是 要 把 “ 牢 底 ” 坐 穿 的 程序 员 ， 这 样 “ 忙 忙碌 碌 ” 的 程序 员 ， 从 来 都 不 算是 好 程序 员 。 


对 于 优秀 的 程序 员 ， 其 最 优秀 的 品质 是 能 够 心平 气 和 地 学 习 与 思考 问题 ， 透 析 代 码 背 后 的 架构 、 原 理 和 设计 思想 。 没 有 思想 的 代码 是 垃圾 代码 ， 没 有 思想 的 程序 员 ， 只 是 在 完成 低 水 平 重复 建设 的 体力 
活 。 很 多 程序 员 从 不 过 问 自己 写 的 代码 最 后 在 机 器 里 面 是 怎么 跑 的 ， 很 多 事情 莫名其妙 地 发 生 了 ， 很 多 bug 英 名 其 妙 地 消失 了 …… 他 们 永远 都 在 得 过 且 过 。 


由 此 ， 衍 生出 了 本 书 的 第 一 个 出 发 点 ， 那 就 是 带 给 读者 更 多 关于 Linux 开 发 思想 的 讲解 ， 帮 助 读者 黄 定 根基 。 本 书 呈 现 给 读者 的 更 多 的 是 一 种 思考 方法 ， 而 不 是 知识 点 的 简单 罗列 。 


本 书 除 对 基础 理论 部 分 进行 了 详细 的 讲解 外 ， 还 加 强 了 对 驱动 编程 所 涉及 的 Linux 内 核 最 底层 机 理 的 讲解 ， 内 容 包括 中 断 、 定 时 器 、 进 程 生命 周期 、uevent、 并 发 、 编 译 乱 序 、 执 行 乱 序 、 等 待 队列 、LI/O 
模型 、 内 存 管理 等 。 这 些 知 识 点 非常 重要 ， 是 真正 证 明 程序 员 理 解 了 Linux 的 部 分 内 容 ， 程 序 员 只 有 打 好 根基 ， 才 能 游 丸 有 余 。 


本 书 没有 大 量 描 述 各 种 具体 驱动 类 型 的 章节 ， 如 Sound、PCI、MTD、tty 等 ， 而 将 更 多 的 焦点 转移 到 了 驱动 编程 背后 的 内 核 原理 ， 并 试图 从 Linux 内 核 的 上 百 个 驱动 子 系统 中 寻找 出 内 部 规律 ， 以 培养 读者 
举一反三 的 能 力 。 


Linux 内 核 有 上 百 个 驱动 子 系统 ， 这 一 点 从 内 核 的 drivers 子 目录 中 就 可 以 看 出 来 : 


laccessibility clocksource fmc irqchip mmc platform sbus usb 
lacpt connector gpio isdn modules.builtin pnp scsi uwb 
lamba coresight gpu Kconfig modules.order power sfi vfio 
landroid cpufreq hid leds mtd powercap sh vhost 
ata cpuidle hsi lguest net pps sn video 
latm crypto hv macintosh nfc ps3 soc virt 
lauxdispLlay dca hwmon mailbox ntb ptp spi virtio 
lbase devfreq hwspinlock Makefile nubus pwm spmi vlyng 
lbcma dio i2c mcb of rapidio ssb vme 
[block dma ide md oprofile ras staging wi 
[bluetooth dma-buf idle media parisc regulator target watchdog 
built-in.o edac iio memory parport remoteproc tc xen 
[bus eisa infiniband memstick pci reset thermal zorro 
cdrom extcon input message pcmcia rpmsg thunderbolt 

ichar firewire iommu mfd phy rtc tty 

clk firmware ipack misc pinctrl $390 uio 


好 吧 ， 傻 子 才 会 一 个 目录 一 个 目录 地 去 看 ， 一 个 目录 一 个 目录 地 从 头 学 起 。 我 们 势必 要 寻找 各 种 驱动 子 系统 的 共性 ， 摸 索 规律 。 在 本 书 中 ， 我 们 将 更 多 地 看 到 各 驱动 子 系统 的 类 比 ， 以 及 驱动 子 系统 的 


层次 化 设计 。 


技术 工作 从 来 都 不 能 一 劳 永 选 。 世 界 变 化 得 太 快 ， 当 前 技术 革新 的 速度 数 倍 于 我 们 父 华 、 祖 人 募 、 祖 祖 佛 经 历 过 的 任何 时 代 。 证 明 你 是 “ 真 球迷 ”还 是 “ 擅 球 迷 ” 的 时 候 到 了 ， 这 个 时 代 是 擅 程 序 员 的 地 


狱 ， 也 是 真 程序 员 的 天 堂 。 


从 浩如烟海 的 知识 体系 、 不 断 更 新 的 软件 版 本 中 终生 学 习 ， 不 断 攻克 一 个 个 挑战 ， 获 取 新 养分 ， 寻 找 新 灵感 ， 这 实在 是 黑 瞳 的 码 农 生涯 中 不 断 闪现 的 璀璨 光芒。 


Linux 的 内 核 版 本 不 断 更 新 ， 出 现 了 Linux 3.0、Linux 3.1、Linux 3.2、…: 


、Linux 3.19、Linux 4.0、Linux 4.1， 变 化 的 是 软件 的 架构 ， 不 变 的 是 Linus 的 热情 。 


这 无 疑 也 是 本 书 的 第 二 个 出 发 点 ， 更 新 Linux 驱 动 编程 的 知识 体系 以 迎合 最 新 的 时 代 需 求 。 因 此 ， 本 书 有 大 量 关于 设备 树 、ARM Linux 移 植 、Linux 电 源 管理 、GPIO、 时 钟 、 定 时 器 、pinmux、DMA 等 内 
容 。 我 们 的 操作 平台 也 转移 到 了 QEMU 模 拟 的 4 核 Cortex-A9 电 路 板 上 ， 书 中 的 实例 基本 都 转移 到 了 市 面 流行 的 新 芯片 上 。 


最 近 两 三 年 ， 老 是 听 许 多 程序 员 抱 她 ， 市 面 上 缺乏 讲解 新 内 核 的 资料 、 缺 乏 从 头 到 尾 讲解 设备 树 的 资料 ， 
好 的 基础 ， 以 优秀 程序 员 极 强 的 学 习 能 力 ， 应 该 很 快 就 可 以 掌握 这 些 新 知识 。 机 制 没有 变 ， 变 化 的 只 是 


策略 。 


但 是 我 想 说 ， 这 实在 不 是 什么 难点 。 难 点 仍然 是 本 书 基于 第 一 个 出 发 点 要 解决 的 问题 ， 如 果 有 


因此 学 习 能 力也 是 优秀 程序 员 的 又 一 个 重要 品质 。 没 有 人 生 下 来 就 是 天 才 ， 良 好 的 学 习 能 力也 是 通过 后 天 的 不 断 学 习 培 养 的 。 可 以 说 ， 学 得 越 多 的 人 ， 学 新 东西 的 速度 一 定 越 快 ， 学 习 能 力也 变 得 越 
强 。 因 为 ， 知 识 的 共通 性 实在 太 多 。 


读者 在 阅读 本 书 时 ， 不 应 该 企图 把 它 当 成 一 本 工具 书 和 查 API 的 书 ， 而 是 应 该 把 它 当 作 一 本 梳理 理论 体系 、 开 发 思想 、 


时 代 的 滚滚 车 轮 推动 着 Linux 内 核 的 版 本 不 断 向 前 ， 也 推动 着 每 个 人 的 人 人生。 红尘 滚滚 ， 


我 不 去 想 是 否 能 够 成 功 ， 


既然 选择 了 远方 ， 


便 只 顾 风雨 兼程 。 


软件 架构 的 书 。 唯 如 此 ， 我 们 才能 适应 未 来 新 的 变化 。 


最 后 ， 本 书 能 得 以 出 版 ， 要 感谢 带领 我 向 前 的 人 生 导 师 和 我 的 众多 小 伙伴 ， 他 们 或 者 在 我 人 生 的 关键 时 刻 改变 了 我 ， 或 者 给 我 黑暗 的 程序 生涯 带 来 了 无 尽 的 快乐 和 动力 。 我 的 小 伙伴 ， 他 们 力 提 我 、 鼓 
励 我 ， 也 辱 加 我 、 妥 落 我 ， 这 些 都 是 真挚 的 友情 。 


EVIL, KUM HPAL, ITER ARR. BAR, 


RER Hak. FR WR. BM. eM, EAR. PH. UKE. BAB, 
龙 廷 、 胡 良 兵 、 张 家 旺 、 王 雷 、Bryan Way Eric Miao, Cliff Cai, Qipan Li, Guoying Zhang、 陈 健 松 、Haoyu Zhong, 3) HA. FAM. MAL MER. RBA Bob Liu、 赵 小 吾 、 


SEM ERS Pi. WAL RT. Rah ME. A 
EJ Zhao. # E4, AEA, 


Hao Yin 等 老师 和 小 伙伴 的 深 深 感激 ; 说 以 此 书 ， 致 以 对 我 的 父母 大 人 、 老 婆 大 人 、 兄 长 和 姐姐 、 伟 大 丈母娘 的 深 深 感 激 ， 本 书 的 写作 时 间 超过 一 年 ， 其 过 程 是 一 种 巨大 的 肉体 和 精神 折磨 ， 没 有 他 们 的 默默 
支持 和 不 断 鞭 策 ， 本 书 是 不 可 能 完成 的 ; 谨 以 此 书 ， 对 为 本 书 做 出 巨大 贡献 的 编辑 、 策 划 老 师 ， 尤 其 是 张国强 老师 致 以 深 深 的 感激 ! 


由 于 篇 幅 的 关系 ， 我 没有 办 法 一 一 列举 我 要 感激 的 所 有 人 ， 但是， 这 些 年 从 你 们 那里 获得 的 ， 远 远大 于 我 付出 的 ， 所 以 ， 在 内 心 深 处 ， 唯 有 怀 着 对 你 们 的 深 深 感 思 ， 


全 书 结构 


不 断 前 行 。 岁 月 如 歌 ， 吾 歌 狂 行 。 


本 书 首先 介绍 Linux 设 备 驱 动 的 基础 。 第 1 章 简要 地 介绍 了 设备 驱动 ， 并 从 无 操作 系统 的 设备 驱动 引出 了 Linux 操 作 系统 下 的 设备 驱动 ， 介 绍 了 本 书 所 基于 的 开发 环境 。 第 2 章 系统 地 讲解 了 Linux 驱 动工 程 
师 应 该 掌握 的 硬件 知识 ， 为 工程 师 打 下 Linux 驱 动 编程 的 硬件 基础 ， 详 细 介绍 了 各 种 类 型 的 CPU、 存 储 器 和 常见 的 外 设 ， 并 阐述 了 硬件 时 序 分 析 方 法 和 数据 手册 阅读 方法 。 第 3 章 将 Linux 设 备 驱动 放 在 Linux 2.6 
内 核 背 景 中 进行 讲解 ， 说 明 Linux 内 核 的 编程 方法 。 由 于 驱动 编程 也 在 内 核 编程 的 范畴 ， 因 此 ， 这 一 章 实质 是 为 编写 Linux 设 备 驱动 打下 软件 基础 。 


其 次 ， 讲 解 Linux 设 备 驱动 编程 的 基础 理论 、 字 符 设备 驱动 及 设备 驱动 设计 中 涉及 的 并 发 控制 、 同 步 等 问题 。 第 4、5 章 分 别 讲解 Linux 内 核 模 块 和 Linux 设 备 文件 系统 ; 第 6~9 章 以 虚拟 设备 globalmem 和 


则 obalfifo 为 主线 ， 逐 步 给 其 添加 高 级 控制 功能 ; 第 10、11 章 分 别 阐述 Linux 了 驱动 编程 中 所 涉及 的 中 断 和 定时 器 、 内 核 和 I/O 〇 操作 处 理 方法 。 


接着 ,剖析 复 杂 设 备 驱 动 的 体系 结构 以 及 块 设备 、 网 络 设备 驱动 。 该 篇 讲解 了 设备 与 驱动 的 分 离 、 主 机 控制 器 驱动 与 外 设 驱 动 的 分 离 ， 并 以 大 量 实例 (如 input、tty、LCD、platform、I?C、SPI、USB 
F) 来 佐证 。 其 中 第 12 章 和 第 17 章 过 相 呼应 ， 力 图 全 面 地 展示 驱动 的 架构 。Linux 有 100 多 个 驱动 子 系统 ， 逐 个 讲解 和 学 习 都 是 不 现实 的 ， 授 人 以 香 不 如 授 人 以 渔 ， 因 此 我 们 将 更 多 的 焦点 放 在 了 架构 讲解 方 
面 ， 以 便 读 者 可 以 举一反三 。 

本 书 最 后 4 章 分 析 了 Linux 的 设备 树 、Linux 移 植 到 新 的 SoC 上 的 具体 工作 以 及 Linux 内 核 和 驱动 的 一 些 调试 方法 。 这 些 内 容 ， 对 于 理解 如 何 从 头 开始 搭建 一 个 Linux， 以 及 整个 Linux 板 级 支持 包 上 上 下 下 的 关 
系 尤为 重要 。 

另外 ， 本 书 的 主要 代码 都 引用 自 Linux 源 代码 ， 为 保留 原 汁 原味 ， 均 延 用 了 代码 的 英文 注释 ， 而 其 他 非 引 用 的 代码 则 使 用 了 中 文 注释 或 无 注释 ， 特 此 说 明 。 


Beggs 


本 书 配 套 的 相关 素材 和 代码 ， 读 者 均 可 从 与 本 书 相关 的 微 信 公众 号 中 获得 ， 相 关公 众 号 是 : Linuxer， 欢 迎 扫描 二 维 而 


本 章 导 读 


本 章 将 介绍 Linux 设 备 驱动 开发 的 基本 概念 ， 


1.1 节 阐明 设备 驱动 的 概念 和 作用 。 


并 对 本 书 所 基 


第 1 章 Linux 设备 驱动 概述 及 开发 环境 构建 


的 平台 和 开发 环境 进行 讲解 。 


宋 宝 华 


2015 年 4 月 于 上 海 浦东 


1.2 节 和 1.3 节 分 别 讲解 在 无 操作 系统 情况 下 和 有 操作 系统 情况 下 设备 驱动 的 设计 ， 通 过 对 设计 差异 的 分 析 ， 讲 解 设 备 驱 动 与 硬件 和 操作 系统 的 关系 。 


1.4 节 对 Linux 操 作 系 统 的 设备 驱动 进行 了 概要 性 的 介绍 ， 给 ! 


1.5 节 对 本 书 所 基于 的 QEMU 模 拟 的 vexpress ARM Cortex-A9 四 核 开 发 板 和 开发 环境 的 安装 进行 介绍 。 


本 章 最 后 给 出 了 一 个 设备 驱动 的 “Hello World” 实 例 ， 即 最 简单 的 LED 驱 动 在 无 操作 系统 情况 下 和 Linux 操 作 系 统 下 的 实现 。 


1.1 ”设备 驱动 的 作用 


任何 一 个 计算 机 系统 的 运转 都 是 系统 中 软 硬 件 共同 努 力 的 结果 ， 没 有 硬件 的 软件 是 空中 楼 阁 ， 而 没有 软件 的 硬件 则 只 是 一 堆 废 铁 。 硬 件 是 底 
， 它 按照 各 种 不 同 的 业务 需求 而 设计 ， 并 完成 


件 上 的 组 合 逻 辑 与 时 序 逻辑 ; 软件 则 实现 了 具 
件 相互 成 就 了 对 方 。 


体 应 


但 是 ， 软 硬件 之 间 同 样 存在 着 悖 论 ,局 
软件 。 艾 如 ， 应 用 软件 工程 师 在 调 
知道 底层 究竟 是 怎样 把 相应 的 信息 输 


出 到 


幕 或 者 串口 。 


氏 


户 的 最 终 诉求 。 硬 件 较 固 


难点 和 学 习 方 法 。 


层 基础 ， 是 所 有 软件 得 以 运行 的 平台 ， 代 码 最 终 会 落实 为 硬 


了 就 是 软件 和 硬件 不 应 该 互相 渗透 入 对 方 的 领地 。 为 尽 可 能 快速 地 完成 设计 ， 应 
套 接 字 发 送 和 接收 数据 包 的 时 候 ， 不 必 关 心 网 卡 上 的 中 断 、 寄 存 器 、 存 储 空间 、1/O 端 口 


也 就 是 说 ， 应 


软件 工程 师 需 


看 到 一 个 没有 硬件 的 纯粹 的 软件 世界 ， 硬 件 必须 透明 地 呈现 给 他 。 谁 来 实现 硬件 对 应 


对 设备 驱动 最 通俗 的 解释 就 是 “驱使 硬件 设备 行 翅 


驱动 与 底 


定 ， 软 件 则 很 灵活 ， 可 以 适应 各 种 复杂 多 变 的 应 


。 因 此 ， 计 算 机 系统 的 软 硬 


软件 工程 师 不 想 也 不 必 关 心 硬件 ， 而 硬件 工程 师 也 难 有 足够 的 闲暇 和 能 力 来 顾及 


、 片 选 以 及 其 他 任何 硬件 词汇 ;在 使 


printf () 函数 输出 信息 的 时 候 ， 他 不 


软件 工程 师 的 隐形 ? 这 个 光荣 而 艰 


巨 的 任务 就 落 在 了 驱动 工程 师 的 头 上 。 


由 此 可 见 ， 设 备 驱动 充当 了 硬件 和 应 


软件 之 间 的 纽 1 


节 ， 应 


软件 时 只 需 


备 的 特点 自行 定义 接口 ， 如 对 串 [ 


驱动 程序 负责 硬件 和 应 
板 , 也 


软件 之 间 的 沟通 ， 而 驱动 工程 师 则 负责 硬件 工程 师 和 应 


因此 ， 会 有 大 量 设备 驱动 需要 开发 。 这 些 驱动 或 运行 在 简 


的 


1.2 ”无 操作 系统 时 的 设备 驱动 


并 不 是 任何 一 个 计算 机 系统 都 一 定 要 有 操作 系统 ， 在 许多 情况 下 ， 操 作 系 统 都 不 必 存 在 。 对 于 功能 比较 和 


调用 系统 软件 的 应 
定义 SerialSend () 、SerialRecv () ， 对 LED 定 义 LightOn () 、 


由 相应 的 操作 系统 定义 ， 驱 动工 程 师 必 须 按照 相应 的 架构 设计 驱动 ， 这 样 ， 驱 动 才能 


编程 接口 
LightOf 


良好 地 整合 入 操 作 系 统 的 


小 灵通 等 ， 并 不 需要 多 任务 调度 、 文 件 系 统 、 内 存 管理 等 


构 ， 如 代码 清单 1.1 所 示 。 


代码 清单 1.1 单 任务 软件 典型 架构 


杂 功 能 ， 


任务 架构 完全 可 以 


内 核 中 。 


软件 工程 师 之 间 的 沟通 。 目 前 ， 随 着 通信 、 电 子 行业 的 迅速 发 
任务 环境 中 ， 或 运行 在 VxWorks、Linux、Windows 等 多 任务 操作 系统 环境 中 ， 它 们 发 挥 着 不 可 蔡 代 的 作用 。 


(API) 就 可 让 硬件 去 完成 要 求 的 工作 。 
f () ， 对 Flash 定 义 FlashWr () 、FlashRd () 等 。 而 在 有 操作 系统 的 情况 下 ， 驱 动 的 架构 则 


层 硬件 直接 打交道 ， 按 照 硬件 设备 的 具体 工作 方式 ， 读 写 设备 的 寄存 器 ， 完 成 设备 的 轮 询 、 中 断 处 理 、DMA 通 信 ， 进 行 物理 内 存 向 虚拟 
内 存 的 映射 等 ， 最 终 让 通信 设备 能 收发 数据 ， 让 显示 设备 能 显示 文字 和 画面 ， 让 存储 设备 能 记录 文件 和 数据 。 


在 系统 没有 操作 系统 的 情况 下 ， 工 程 师 可 以 根据 硬件 设 


展 ， 全 世界 每 天 都 会 生产 大 量 新 芯片 ， 设 计 大 量 新 电路 


Em 一、 控制 并 不 复杂 的 系统 ， 壁 如 ASIC 内 部 、 公 交 车 的 刷卡 机 、 电 冰箱 、 微 波 炉 、 和 简单 的 手机 和 
良好 地 支持 它们 的 工作 。 一 个 无 限 循环 中 夹杂 着 对 设备 中 断 的 检测 或 者 对 设备 的 轮 询 是 这 种 系统 中 软件 的 典型 架 


K 


+y 


1 int main(int argc, char* argv[]) 
2 { 
3 while (1) 
ae 
5 if (serialInt == 1) 
6 /* 有 串口 中 断 */ 
7 { 
8 ProcessSerialint(); /* 处 理事 口中 断 */ 
9 serialInt = 0; /* 中 断 标志 变量 清 0 
10 } 
11 if (keyInt == 1) 
12 /* 有 按键 中 断 */ 
13 { 
14 ProcessKeyInt () ; /* 处 理 按键 中 断 */ 
15 keyInt = 0; /* 中 断 标志 变量 清 0 
16 } 
17 status = CheckXXX () ; 
18 switch (status) 
19 
20 
21 
22 
23 } 
24 } 
在 这 样 的 系统 中 ， 
部 函数 ， 后 者 进行 驱动 的 具体 实现 。 璧 如， 可 以 像 代 码 清和 


1.2 那 样 定义 一 个 串 


的 驱动 。 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


} 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


虽然 不 存在 操作 系统 ， 但 是 设备 驱动 则 无 论 如 何 都 必须 存在 。 一 般 情况 下 ， 每 一 种 设备 驱动 都 会 定义 为 一 个 软件 模块 ， 包 含 .h 文 件 和 .< 文件 ， 前 者 定义 该 设备 驱动 的 数据 结构 并 声明 外 


代码 清单 1.2 ”无 操作 系统 情况 下 串口 的 驱动 


BOOS ICI II IIR I ok 


*serial hit 


FOES ISTIC CI IOI I IIR I / 


1 
2 
3 
4 extern void SerialInit (void); 

5 extern void SerialSend(const char buf*,int count); 
6 extern void SerialRecv(char buf*,int count); 

7 

8 

9 


BOOS III IIR I Ie 


*Serial.c 文 件 


LOSES SOS SI Ie / 
11 /* 初始 化 串口 */ 
12 void SerialInit (void) 


{ 
14 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


} 
16 /* 串口 发 送 */ 


17 void SerialSend(const char buf*,int count) 
{ 
19 http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


} 
21 /* 串口 接收 */ 
22 void SerialRecv (char buf*,int count) 
23 { 
24 http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


} 
26 /* 串口 中 断 处 理 函 数 */ 


27 void SerialIsr(void) 


29 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/0EBPS/Text/... 
30 serialInt = 1; 
31 } 


其 他 模块 想 要 使 用 这 个 设备 的 时 候 ， 只 需要 包含 设备 驱动 的 头 文件 serial.h， 然 后 调用 其 中 的 外 部 接口 函数 。 如 要 从 串口 上 发 送 “Hello World” 字 符 串 ,使 用 语句 SerialSend ( “Hello World” , 11) 
即 可 。 


由 此 可 见 ， 在 没有 操作 系统 的 情况 下 ， 设 备 驱动 的 接口 被 直接 提交 给 应 用 软件 工程 师 ， 应 用 软件 没有 跨越 任何 层次 就 直接 访问 设备 驱动 的 接口 。 驱 动 包含 的 接口 函数 也 与 硬件 的 功能 直接 吻合 ， 没 有 任 
何 附加 功能 。 图 1.1 所 示 为 无 操作 系统 情况 下 硬件 、 设 备 驱 动 与 应 用 软件 的 关系 。 


应 用 软件 


设备 驱动 


SerialSend, LightOn, FlashWr , 
SerialRecv LightOtt FlashRd 


图 1.1 无 操作 系统 时 硬件 、 设 备 驱动 和 应 用 软件 的 关系 


有 的 工程 师 把 单 任务 系统 设计 成 了 如 图 1.2 所 示 的 结构 ， 即 设备 驱动 和 具体 的 应 用 软件 模块 之 间 平 等 ， 驱 动 中 包含 了 业务 层面 上 的 处 理 ， 这 显然 是 不 合理 的 ， 不 符合 软件 设计 中 高 内 聚 、 低 耦合 的 要 求 。 


另 一 种 不 合理 的 设计 是 直接 在 应 用 中 操作 硬件 的 寄存 器 ， 而 不 单独 设计 驱动 模块 ， 如 图 1.3 所 示 。 这 种 设计 意味 着 系统 中 不 存在 或 未 能 充分 利用 可 重用 的 驱动 代码 。 


设备 驱动 


SerialSend、 || LightOn. FlashWr. 
SerialRecv LipghtO 仁 FlashRd 


FLASH 


图 1.2 ”驱动 与 应 用 高 耦合 的 不 合理 设计 


应 用 软件 


ReadReg ReadMem 
WriteReg WriteMem 


图 1.3 ”应 用 直接 访问 硬件 的 不 合理 设计 


1.3 ”有 操作 系统 时 的 设备 驱动 


在 1.2 节 中 我 们 看 到 一 个 清晰 的 设备 驱动 ， 它 直接 运行 在 硬件 之 上 ， 不 与 任何 操作 系统 关联 。 当 系统 包含 操作 系统 时 ， 设 备 驱动 会 变 得 怎样 呢 ? 


首先 ， 无 操作 系统 时 设备 驱动 的 硬件 操作 工作 仍然 是 必 不 可 少 的 ， 没 有 这 一 部 分 ， 驱 动 不 可 能 与 硬件 打交道 。 


其 次 ， 我 们 还 需要 将 驱动 融入 内 核 。 为 了 实现 这 种 融合 ， 必 须 在 所 有 设备 的 驱动 中 设计 面向 操作 系统 内 核 的 接口 ， 这 样 的 接口 由 操作 系统 规定 ， 对 一 类 设备 而 言 结构 一 致 ， 独 立 于 具体 的 设备 。 


由 此 可 见 ， 当 系统 中 存在 操作 系统 的 时 候 ， 驱 动 变 成 了 连接 硬件 和 内 核 的 桥梁 。 如 图 1.4 所 示 ， 操 作 系 统 的 存在 势必 要 求 设备 驱动 附加 更 多 的 代码 和 功能 ， 把 单一 的 “驱使 硬件 设备 行动 ” 变 成 了 操作 系 
统 内 与 硬件 交互 的 模块 ， 它 对 外 呈现 为 操作 系统 的 AP1， 不 再 给 应 用 软件 工程 师 直接 提供 


用 户 应 用 程序 


操作 系统 API 


操作 系统 


设备 驱动 中 独立 于 设备 的 接口 


设备 驱动 中 的 硬件 操作 


图 1.4 硬件、 驱动、 操作 系统 和 应 用 程序 的 关系 


那么 我 们 要 问 ， 有 了 操作 系统 之 后 ， 驱 动 反而 变 得 复杂 ， 那 要 操作 系统 干什么 ? 


首先 ， 一 个 复杂 的 软件 系统 需要 处 理 多 个 并 发 的 任务 ， 没 有 操作 系统 ， 想 完成 多 任务 并 发 是 很 困难 的 。 


其 次 ， 操 作 系统 给 我 们 提供 内 存 管理 机 制 。 一 个 典型 的 例子 是 ， 对 于 多 数 含 MMU 的 32 位 处 理 器 而 言 ，Windows、Linux 等 操作 系统 可 以 让 每 个 进程 都 可 以 独立 地 访问 4GB 的 内 存 空间 。 


上 述 优点 似乎 并 没有 体现 在 设备 驱动 身上 ， 操 作 系统 的 存在 给 设备 驱动 究竟 带 来 了 什么 实质 性 的 好 处 ? 


简 而 言 之 ， 操 作 系 统 通过 给 驱动 制造 麻烦 来 达到 给 上 层 应 用 提供 便利 的 目的 。 当 驱动 都 按照 操作 系统 给 出 的 独立 于 设备 的 接口 而 设计 时 ， 那 么 ， 应 用 程序 将 可 使 用 统一 的 系统 调用 接口 来 访问 各 种 设 
备 。 对 于 类 UNIX 的 VxWorks、Linux 等 操作 系统 而 言 ， 当 应 用 程序 通过 write () 、read () 等 函数 读 写 文件 就 可 访问 各 种 字符 设备 和 块 设备 ， 而 不 论 设备 的 具体 类 型 和 工作 方式 ， 那 将 是 多 么 便利 。 


1.4 Linux 设备 驱动 


14.1 设备 的 分 类 及 特点 


计算 机 系统 的 硬件 主要 由 CPU、 存 储 器 和 外 设 组 成 。 随 着 |C 制 作 工艺 的 发 展 ， 目 前 ， 芯 片 的 集成 度 越 来 越 高 ， 往 往 在 CPU 内 部 就 集成 了 存储 器 和 外 设 适 配器 。 譬 如， 相当 多 的 ARM、PowerPC、MIPS 
等 处 理 器 都 集成 了 UART、12C 控 制 器 、SPI 控 制 器 、USB 控 制 器 、SDRAM 控 制 器 等 ， 有 的 处 理 器 还 集成 了 GPU (图 形 处 理 器 ) 、 视 频 编 解码 器 等 。 


驱动 针对 的 对 象 是 存储 器 和 外 设 (包括 CPU 内 部 集成 的 存储 器 和 外 设 ) ， 而 不 是 针对 CPU 内 核 。Linux 将 存储 器 和 外 设 分 为 3 个 基础 大 类 。 


“ 网 络 设备 。 


字符 设备 指 那些 必须 以 串 行 顺 序 依次 进行 访问 的 设备 ， 如 触摸 屏 、 磁 带 驱动 器 、 鼠 标 等 。 块 设备 可 以 按 任意 顺序 进行 访问 ， 以 块 为 单位 进行 操作 ， 如 硬盘 、eMMC 等 。 字 符 设 备 和 块 设备 的 驱动 设计 有 
出 很 大 的 差异 ， 但 是 对 于 用 户 而 言 ， 它 们 都 要 使 用 文件 系统 的 操作 接口 open () 、close () 、read () 、write () 等 进行 访问 。 


在 Linux 系 统 中 ， 网 络 设备 面向 数据 包 的 接收 和 发 送 而 设计 ， 它 并 不 倾向 于 对 应 于 文件 系统 的 节点 。 内 核 与 网 络 设备 的 通信 与 内 核 和 字符 设备 、 网 络 设备 的 通信 方式 完全 不 同 ， 前 者 主要 还 是 使 用 套 接 字 
接口 。 


1.5 ”Linux 设 备 驱 动 的 开发 环境 构建 


1.5.1 PC 上 的 Linux 环 境 


本 书 配套 资源 提供 了 一 个 Ubuntu 的 VirtualBox 虚 拟 机 映像 ， 该 虚拟 机 上 安装 了 本 书 涉及 的 所 有 源 代码 、 工 具 链 和 各 种 开发 工具 ， 读 者 无 : 
Ubuntu 等 操作 系统 中 ， 运 行 方法 如 下 。 


再 安装 和 配置 任何 环境 。 该 虚拟 机 可 运行 于 Windows、 


党 


1) 安装 VirtualBox。 


如 果 主 机 为 Windows 系 统 ， 请 安装 VirtualBox WIN 版 本 : 


VirtualBox-4.3.20-96997-Win.exe 


如 果 主 机 为 Ubuntu 系统 ， 请 安装 VirtualBox DEBRA: 


virtualbox-4.3_4.3.20-96996~ Ubuntu~precise_i386.deb 


N 


安装 VirtualBox extension, 


O 


racle_VM_VirtualBox_Extension_Pack-4.3.20-96996.vbox-extpack 


Ww 


准备 虚拟 机 镜像 。 


解压 Baohua_Linux.vmdk.rar 为 Baohua_Linux.vmdk 


D 


新 建 虚 拟 机 。 


运行 第 1 步 安装 的 Oracle VM VirtualBox， 单 击 “ 新 建 (N) ”图 标 创建 虚拟 机 ，“ 类 型 ”选择 Linux，“ 版 本 ”选择 Ubuntu (32bit) ， 名 称 可 以 取 名 为 “linux-training”， 如 图 1.6 所 示 。 
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图 1.6 新建 Ubuntu 32 位 虚拟 机 


单 击 “下 一 步 (N) ”按钮 ， 设 置 内 存 ， 如 图 1.7 所 示 。 
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AN) ”设置 (S) 


内 存 大 小 
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Š Oracle VM VirtualBox 管理 器 


> 


启动 () Be 


#SSEL SA SRA ASK IMB). 


建议 的 内 夸大 小 为 512 MB. 


继续 单 击 “ 下 一 步 (N) ”按钮 。 设 置 硬盘 


=, 16.00 GB) 


图 1.7 设置 虚拟 机 的 内 存 


=M#ABS: Windows DirectSound 
控制 芯片 : ICH AC97 
， 注 意 选 择 “ 使 用 已 有 的 虚拟 硬盘 文件 (U) " À 


选 按钮 ， 虚 拟 硬盘 文件 是 第 3 步 解压 之 


备份 [系统 快 拔 ](S) 


m ag 


后 的 “Baohua_Linuxvmdk“”， 如 


一 一 


到 1.8 所 示 。 


Oracle VM VirtualBox 管理 器 吕 | 回 x 


Ce ee => 国 seinem) 


SLAN) 826) £40) = 


=) ag 


FEVER 


虚拟 硬盘 


你 可 以 滔 加 盛 拟 而 瘟 到 新 式 拟 久 脑 中 。 新 建 一 个 成 拟 现 剖 文 侍 或 从 列表 或 
思 文 件 夹 图 标 从 其 他 位 置 选择 一 个 . 


MREERELESZSNES. TURIRA. ERSS 
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© cHexhanzexe) 
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StS: Windows DirectSound 


BEJZA: ICH AC97 


1.8 ”设置 虚拟 机 硬盘 镜像 


最 后 ， 单 击 “创建 ”按钮 以 完成 虚拟 机 的 构建 工作 。 


5) 启动 虚拟 机 。 


在 VirtualBox 上 选择 先前 创建 的 “linux-training” 虚 拟 机 并 单 击 “ 启 动 ”图 标 ， 如 图 1.9 所 示 。 
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1.9 启动 虚拟 机 


虚拟 机 的 账号 和 密码 都 是 “baohua” ， 如 果 要 执行 特权 命令 ，sudo 密 码 也 是 “baohua”， 如 图 1.10 所 示 。 
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A110 虚拟 机 登录 界面 


本 书 配套 的 Ubuntu 版 本 是 14.04， 但 是 内 核 版 本 升级 到 了 4.0-rc1， 以 保证 和 本 书 讲解 内 容 的 版 本 一 致 。 


注意 事项 : 


如 果 发 现 VirtualBox 不 稳定 或 者 有 兼容 性 问题 (经 过 测试 ， 有 极 少数 PC 存在 此 问题 ) ， 也 可 以 安装 VMware (Baohua_Linux.vmdk 也 是 支持 VMware 的 ) o 


如 果 光 盘 不 小 心 损 坏 ， 可 以 从 链接 : http://pan.baidu.com/s/1c08gzi4 (密码 为 puki) 处 提取 网 盘 上 的 文件 。 


1.6 ”设备 驱动 Hello World: LED 驱 动 


1.6.1 无 操作 系统 时 的 LED 驱 动 


在 嵌入 式 系统 的 设计 中 ，LED 一 般 直 接 由 CPU 的 GPIO (通用 可 编程 /O) 口 控制 。GPIO 一 般 由 两 组 寄存 器 控制 ， 即 一 组 控制 寄存 器 和 一 组 数据 寄存 器 。 控 制 寄 存 器 可 设置 GPIO 口 的 工作 方式 为 输入 或 
者 输出 。 当 引 脚 被 设置 为 输出 时 ， 向 数据 寄存 器 的 对 应 位 写 入 1 和 0 会 分 别 在 引 脚 上 产生 高 电 平和 低 电 平 ， 当 引 脚 设置 为 输入 时 ， 读 取 数 据 寄存 器 的 对 应 位 可 获得 引 脚 上 的 电 平 为 高 或 低 。 


在 本 例子 中 ， 我 们 屏蔽 具体 CPU 的 差异 ， 假 设 在 GPIO_REG_CTRL 物 理 地 址 中 控制 寄存 器 处 的 第 n 位 写 入 1 可 设置 GPIO 口 为 输出 ， 在 地 址 GPIO_REG_DATA 物 理 地 址 中 数据 寄存 器 的 第 n 位 写 入 1 或 0 可 在 
引 脚 上 产生 高 或 低 电 平 ， 则 在 无 操作 系统 的 情况 下 ， 设 备 驱 动 见 代码 清单 1.3。 


代码 清单 1.3 ”无 操作 系统 时 的 LED 驱 动 


1 #define reg gpio ctrl * (volatile int *) (ToVirtual (GPIO REG CTRL)) 
2 #define reg gpio data *(volatile int *) (ToVirtual (GPIO REG DATA)) 
3 /* 初始 化 LED */ 
4 void LightInit (void) 
5 1{ 
6 reg_gpio ctrl |= (1 << n); /* 设置 GPIO 为 输出 */ 
7 
8 
9 /* 点 亮 LED */ 
10 void LightOn (void) 

{ 


12 reg gpio data |= (1 << n); /* 在 GPIO 上 输出 高 电 平 */ 
} 

15 /* RIED */ 

16 void LightOff (void) 
{ 


18 reg gpio data & ~(1 << n); /* 在 GPIO 上 输出 低 电 平 */ 


上 述 程序 中 的 LightInit () 、LightOn () , LightOff () 都 直接 作为 驱动 提供 给 应 用 程序 的 外 部 接口 函数 。 程 序 中 ToVirtual () 的 作用 是 当 系 统 启动 了 硬件 MMU 之 后 ， 根 据 物理 地 址 和 虚拟 地 址 的 
映射 关系 ， 将 寄存 器 的 物理 地 址 转化 为 虚拟 地 址 。 


第 2 章 ”驱动 设计 的 硬件 基础 


本 章 导 读 


本 章 讲述 底层 驱动 工程 师 必 备 的 硬件 基础 ， 给 出 了 谋 入 式 系统 硬件 原理 及 分 析 方法 的 一 个 完整 而 简洁 的 全 景 视图 。 


2.1 节 描述 了 微 控 制 器 、 微 处 理 器 、 数 字 信 和 号 处 理 器 以 及 应 用 于 特定 领域 的 处 理 器 各 自 的 特点 ， 分 析 了 处 理 器 的 体系 结构 和 指令 : 


2.2 节 对 嵌入 式 系 统 中 所 使 用 的 各 类 存储 器 与 CPU 的 接口 、 应 用 领域 及 特点 进行 了 归纳 整理 。 


2.3 节 分 析 了 常见 的 外 设 接口 与 总 线 的 工作 方式 ， 包 括 串口 、I2C、SPI、USB、 以 太 网 接口 、PCIl 和 PCI-E、SD 和 SDIO 等 。 


嵌入 式 系统 硬件 电路 中 经 常会 使 用 CPLD 和 FPGA， 作 为 驱动 工程 师 ， 我 们 不 需要 掌握 CPLD 和 FPGA 的 开发 方法 ， 但 是 需要 知道 它们 在 电路 中 能 完成 什么 工作 ，2.4 节 讲解 了 这 项 内 容 。 


2.5~2.7 节 给 出 了 在 实际 项 目 开发 过 程 中 硬件 分 析 的 方法 ， 包 括 如 何 进行 原理 图 分 析 、 时 序 分 析 及 如 何 快速 地 从 芯片 数据 手册 中 获取 有 效 信息 。 


2.8 节 讲解 了 调试 过 程 中 常用 仪器 仪表 的 使 用 方法 ， 涉 及 万 用 表 、 示 波 器 和 逻辑 分 析 仪 。 


2.1 ”处理 器 


2.1.1 通用 处 理 器 


目前 主流 的 通用 处 理 器 (GPP) 多 采用 SoC (片上 系统 ) 的 芯片 设计 方法 ， 集 成 了 各 种 功能 模块 ， 每 一 种 功能 都 是 由 硬件 描述 语言 设计 程序 ， 然 后 在 SoC 内 由 电路 实现 的 。 在 SoC 中 ， 每 一 个 模块 不 是 一 
个 已 经 设计 成 熟 的 ASIC 器 件 ， 而 是 利用 芯片 的 一 部 分 资源 去 实现 某 种 传统 的 功能 ， 将 各 种 组 件 采用 类 似 搭 积木 的 方法 组 合 在 一 起 。 


ARM 内核 的 设计 技术 被 授权 给 数 百 家 半导体 厂商 ， 做 成 不 同 的 SoC 芯 片 。ARM 的 功 耗 很 低 ， 在 当今 最 活跃 的 无 线 局 域 网 、3G、 手 机 终端 、 手 持 设备 、 有 线 网 络 通 信 设 备 等 中 应 用 非常 广泛 。 至 本 书 编 
写 时 ,市 面 上 绝 大 多 数 智能 手机 、 平 板 电脑 都 使 用 ARM SoC 作 为 主 控 芯 片 。 很 多 ARM 主 控 芯 片 的 集成 度 非 常 高 ， 除 了 集成 多 核 ARM 以 外 ， 还 可 能 集成 图 形 处 理 器 、 视 频 编 解 码 器 、 浮 点 协 处 理 器 、GPS、 
WiFi、 蓝 牙 、 基 带 、Camera 等 一 系列 功能 。 比 如 ， 高 通 的 Snapdragon 810 就 集成 了 如 图 2.1 所 示 的 各 种 模块 。 


Location 
GPS, GLONASS, Beidou, Galileo Satellites Cortex-A57 


& 


Cortex-A53 CPUs 


Adreno 430 GPU 


OpenGL ES 2.0/3.1 
OpenCL 1.2 Full Memory 
Content Security LPDDR6 


Hexagon DSP 
Display Processing Ultra Low Power 


4K, Miracast, picture enhancement Sensor Engine 


Multimedia 


Modem Processin 
Dual ISPs 9 
4" gen CAT 6LTE Postal 4K Encode/Decode 


Upito Gx20MHz CA Up to SSMP Snapdragon Voice Activation 


12GPix/s b js 
ix/s bw - 
Camera SW Studio Access Security 


图 2.1 ARM SoC 范例 : Snapdragon 810 


主流 的 ARM 移 动 处 理 芯 片 供应 商 包 括 高 通 (Qualcomm) 、 三 星 (Samsung) 、 英 伟 达 (Nvidia) 、 美 满 (Marvell) 、 联 发 科 (MTK) 、 海 思 (HiSilicon) 、 展 讯 (Spreadtrum) 等 。 德 州 仪器 
(Tl) 、 博 通 (Broadcom) 则 已 淡出 手机 芯片 业务 。 


中 央 处 理 器 的 体系 结构 可 以 分 为 两 类 ， 一 类 为 冯 - 诺 依 曼 结构 ， 另 一 类 为 哈佛 结构 。Intel 公 司 的 中 央 处 理 器 、ARM 的 ARM7、MIPS 公 司 的 MIPS 处 理 器 采用 了 冯 - 诺 依 曼 结构 ; 而 AVR、ARM9、 
ARM10、ARM11 以 及 Cortex A 系列 等 则 采用 了 哈佛 结构 。 


冯 - 诺 依 曼 结构 也 称 普林斯顿 结构 ， 是 一 种 将 程序 指令 存储 器 和 数据 存储 器 合并 在 一 起 的 存储 器 结构 。 程 序 指令 存储 地 址 和 数据 存储 地 址 指向 同一 个 存储 器 的 不 同 物理 位 置 ， 因 此 程序 指令 和 数据 的 宽度 
相同 。 而 哈佛 结构 将 程序 指令 和 数据 分 开 存 储 ， 指 令 和 数据 可 以 有 不 同 的 数据 宽度 。 此 外 ， 哈 佛 结构 还 采用 了 独立 的 程序 总 线 和 数据 总 线 ， 分 别 作为 CPU 与 每 个 存储 器 之 间 的 专用 通信 路 径 ， 具 有 较 高 的 执 
行 效率 。 图 2.2 描 述 了 冯 - 诺 依 曼 结构 和 哈佛 结构 的 区 别 。 
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图 2.2 Wh - 诺 依 曼 结 构 与 哈佛 结构 


许多 芯片 采用 的 是 如 图 2.3 所 示 的 改进 的 哈佛 架构 ， 它 具有 独立 的 地 址 总 线 和 数据 总 线 ， 两 条 总 线 由 程序 存储 器 和 数据 存储 器 分 时 共用 。 因 此 ， 改 进 的 哈佛 结构 针对 程序 和 数据 ， 其 实 没有 独立 的 总 线 ， 
而 是 使 用 公用 数据 总 线 来 完成 程序 存储 模块 或 数据 存储 模块 与 CPU 之 间 的 数据 传输 ， 公 用 的 地 址 总 线 来 寻 址 程序 和 数据 。 
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图 2.3 改进 的 哈佛 结构 


从 指令 集 的 角度 来 讲 ， 中 央 处 理 器 也 可 以 分 为 两 类 ， 即 RISC (精简 指令 集 计 算 机 ) 和 CISC (复杂 指令 集 计算 机 ) 。CSIC 强 调 增强 指令 的 能 力 、 减 少 目标 代码 的 数量 ， 但 是 指令 复杂 ， 指 令 周 期 长 ; 而 
RISC 强 调 尽量 减少 指令 集 、 指 令 单 周期 执行 ， 但 是 目标 代码 会 更 大 。ARM、MIPS、PowerPC 等 CPU 内 核 都 采用 了 RISC 指 令 集 。 目 前 ，RISC 和 CSIC 两 者 的 融合 非常 明显 。 


2.2 存储 器 


存储 器 主要 可 分 类 为 只 读 储存 器 (ROM) 、 闪 存 (Flash) 、 随 机 存 取 存 储 器 (RAM) 、 光 / 磁 介质 储存 器 。 


ROM 还 可 再 细 分 为 不 可 编程 ROM、 可 编程 ROM (PROM) 、 可 擦 除 可 编程 ROM (EPROM) 和 电 可 擦 除 可 编程 ROM (E2PROM) ，E2PROM 完 全 可 以 用 软件 来 擦 写 ， 已 经 非常 方便 了 。 


NOR (或 非 ) 和 NAND (与 非 ) 是 市 场 上 两 种 主要 的 Flash 闪 存 技术 。Intel 于 1988 年 首先 开发 出 NOR Flash 技 术 ， 彻 底 改 变 了 原先 由 EPROM 和 EEPROM 一 统 天 下 的 局 面 。 紧 接着 ，1989 年 ， 东 芝 公 司 
发 表 了 NAND Flash 结 构 ， 每 位 的 成 本 被 大 大 降低 。 


NOR Flash 和 CPU 的 接口 属于 典型 的 类 SRAM 接 口 (如 图 2.5 所 示 ) ， 不 需要 增加 额外 的 控制 电路 。NOR Flash 的 特点 是 可 芯片 内 执行 (eXecute In Place, XIP) ， 程 序 可 以 直接 在 NOR 内 运行 。 而 
NAND Flash 和 CPU 的 接口 必须 由 相应 的 控制 电路 进行 转换 ， 当 然 也 可 以 通过 地 址 线 或 GPIO 产 生 NAND Flash 接 口 的 信号 。NAND Flash 以 块 方式 进行 访问 ， 不 支持 芯片 内 执行 。 
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接口 的 LO 芯片 等 


图 2.5 ”典型 的 类 SRAM 接 口 


公共 闪存 接口 (Common Flash Interface, CFI) 是 一 个 从 NOR Flash 器 件 中 读 取 数 据 的 公开 、 标 准 接口 。 它 可 以 使 系统 软件 查询 已 安装 的 Flash 器 件 的 各 种 参数 ， 包 括 器 件 阵 列 结构 参数 、 电 气 和 时 
间 参 数 以 及 器 件 支持 的 功能 等 。 如 果 芯 片 不 支持 CF1， 就 需 使 用 EDEC (Joint Electron Device Engineering Council， 电 子 电器 设备 联合 会 ) 了 。JEDEC 规 范 的 NOR 则 无 法 直接 通过 命令 来 读 出 容量 等 信 
息 ， 需 要 读 出 制造 商 ID 和 设备 1D， 以 确定 Flash 的 大 小 。 


与 NOR Flash 的 类 SRAM 接 口 不 同 ， 一 个 NAND Flash 的 接 [ 


要 包含 如 下 信号 。 


TORR: 地 址 、 指 令 和 数据 通过 这 组 总 线 传 输 ， 一 般 为 8 位 或 16 位 。 

- 芯片 启动 (Chip Enable，CE#) : 如 果 没 有 检测 到 CE 信号 ，NAND 器 件 就 保持 待机 模式 ， 不 对 任何 控制 信号 做 出 响应 。 

- 写 使 能 (Write Enable, WE#) : WE# 负 责 将 数据 、 地 址 或 指令 写 入 NAND 之 中 。 

- 读 使 能 (Read Enable, RE#) : RE# 允 许 数据 输出 。 

- 指令 锁 存 使 能 (Command Latch Enable, CLE) : 当 CLE 为 高 电 平 时 ， 在 WE# 信 号 的 上 升 沿 ， 指 令 将 被 锁 存 到 NAND 指 令 寄存 器 中 。 
+ 地 址 锁 存 使 能 (Address Latch Enable, ALE) : 当 ALE 为 高 电 平时 ， 在 WE# 信 号 的 上 升 沿 ， 地 址 将 被 锁 存 到 NAND 地 址 寄存 器 中 。 


“ 就 绪 / 忙 (Ready/Busy，R/B#) : 如 果 NAND 器 件 忙 ，R/B# 信 号 将 变 为 低 电 平 。 该 信号 是 漏 极 开路 ， 需 要 采用 上 拉 电 阻 。 


NAND Flash 较 NOR Flash 容 量 大 ， 价 格 低 ; NAND Flash 中 每 个 块 的 最 大 擦 写 次 数 是 100 万 次 ， 而 NOR 的 擦 写 次 数 是 10 万 次 ;NAND Flash 的 擦 除 、 编 程 速度 远 超过 NOR Flash, 


由 于 Flash 固 有 的 电器 特性 ， 在 读 写 数 据 过 程 中 ， 偶 然 会 产生 1 位 或 几 位 数据 错误 ， 即 位 反 转 ，NAND Flash 发 生 位 反 转 的 概率 要 远大 于 NOR Flash。 位 反 转 无 法 避免 ， 因 此 ， 使 用 NAND Flash 的 同时 ， 
应 采用 错误 探测 /错误 更 正 (EDC/ECC) 算法 。 


Flash 的 编程 原理 都 是 只 能 将 1 写 为 0， 而 不 能 将 0 写 为 1。 因 此 在 Flash 编 程 之 前 ， 必 须 将 对 应 的 块 擦 除 ， 而 擦 除 的 过 程 就 是 把 所 有 位 都 写 为 1 的 过 程 ， 块 内 的 所 有 字 节 变 为 0xFF。 另 外 ，Flash 还 存在 一 个 
负载 均衡 的 问题 ， 不 能 老 是 在 同一 块 位 置 进行 擦 除 和 写 的 动作 ， 这 样 容易 导致 坏 块 。 


值得 一 提 的 是 ， 目 前 NOR Flash 可 以 使 用 SPI 接 口 进行 访问 以 节省 引 脚 。 相 对 于 传统 的 并 行 NOR Flash 而 言 ，SPI NOR Flash 只 需要 6 个 引 脚 就 能 够 实现 单 /O、 双 MO 和 4 个 MO 口 的 接口 通信 ， 有 的 SPI 


NOR Flash 还 支持 DDR 模 式 ， 能 进一步 提高 访问 速度 到 80MB/s。 


IDE (Integrated Drive Electronics) 接口 可 连接 硬盘 控制 器 或 光驱 ，1DE 接 口 的 信号 与 SRAM 类 似 。 人 们 通常 也 把 1DE 接 口 称 为 ATA (Advanced Technology Attachment) 接口 ， 不 过 ， 从 技术 角度 
而 言 ， 这 并 不 准确 。 其 实 ，ATA 接 口 发 展 至 今 ， 已 经 经 历 了 ATA-1 (IDE) 、ATA-2 (Enhanced IDE/Fast ATA, EIDE) 、ATA-3 (FastATA-2) 、Ultra ATA, Ultra ATA/33, Ultra ATA/66, Ultra 
ATA/100 及 Serial ATA (SATA) 的 发 展 过 程 。 


很 多 SoC 集 成 了 一 个 eFuse 电 编程 熔 丝 作为 OTP (One-Time Programmable， 一 次 性 可 编程 ) 存储 器 。eFuse 可 以 通过 计算 机 对 芯片 内 部 的 参数 和 功能 进行 配置 ， 这 一 般 是 在 芯片 出 厂 的 时 候 已 经 设置 
好 了 。 


以 上 所 述 的 各 种 ROM、Flash 和 磁 介质 存储 器 都 属于 非 易 失 性 存储 器 (NVM) 的 范畴 ， 掉 电 时 信息 不 会 丢失 ， 而 RAM 则 与 此 相反 。 


RAM 也 可 再 分 为 静态 RAM (SRAM) 和 动态 RAM (DRAM) 。DRAM 以 电荷 形式 进行 存储 ， 数 据 存储 在 电容 器 中 。 由 于 电容 器 会 因 漏电 而 出 现 电 荷 丢 失 ， 所 以 DRAM 器 件 需要 定期 刷新 。SRAM 是 静 
态 的 ， 只 要 供电 它 就 会 保持 一 个 值 ，SRAM 没 有 刷新 周期 。 每 个 SRAM 人 存储 单元 由 6 个 晶体 管 组 成 ， 而 DRAM 存 储 单元 由 1 个 晶体 管 和 1 个 电容 器 组 成 。 


通常 所 说 的 SDRAM、DDR SDRAM 和 皆 属于 DRAM 的 范畴 ， 它 们 采用 与 CPU 外 存 控制 器 同步 的 时 钟 工作 (注意 ， 不 是 与 CPU 的 工作 频率 一 致 ) 。 与 SDRAM 相 比 ，DDR SDRAM 同 时 利用 了 时 钟 脉 冲 的 上 


沿 和 下 降 沿 传输 数据 ， 因 此 在 时 钟 频率 不 变 的 情况 下 ， 数 据 传输 频率 加 倍 。 此 外 ， 还 存在 使 用 RSL (Rambus Signaling Level，Rambus 发 信 电 平 ) 技术 的 RDRAM (Rambus DRAM) 和 Direct 
RDRAM, 


针对 许多 特定 场合 的 应 用 ， 谋 入 式 系 统 中 往往 还 使 用 了 一 些 特 定 类 型 的 RAM。 


1.DPRAM: 双 端 口 RAM 


DPRAM 的 特点 是 可 以 通过 两 个 端口 同时 访问 ,具有 两 套 完全 独立 的 数据 总 线 、 地 址 总 线 和 读 写 控制 线 ， 通 常用 于 两 个 处 理 器 之 间 交 互 数据 ， 如 图 2.6 所 示 。 当 一 端 被 写 入 数据 后 ， 另 一 端 可 以 通过 轮 询 
或 中 断 获知 ， 并 读 取 其 写 入 的 数据 。 由 于 双 CPU 同 时 访问 DPRAM 时 的 仲裁 逻辑 电路 集成 在 DPRAM 内 部 ， 所 以 需要 硬件 工程 师 设计 的 电路 原理 比较 简单 


数据 总 线 数据 总 线 


控制 寄存 器 


A260 3% RAM 


DPRAM 的 优点 是 通信 速度 快 、 实 时 性 强 、 接 口 简单 ， 而 且 两 边 处 理 器 都 可 主动 进行 数据 传输 。 除 了 双 端 口 RAM 以 外 ， 目 前 1DT 等 芯片 三 商 还 推出 了 多 端口 RAM ， 可 以 供 3 个 以 上 的 处 理 器 互通 数据 。 


2.CAM: 内 容 寻 址 RAM 


CAM 是 以 内 容 进行 寻 址 的 存储 器 ， 是 一 种 特殊 的 存储 阵列 RAM ， 它 的 主要 工作 机 制 就 是 同时 将 一 个 输入 数据 项 与 存储 在 CAM 中 的 所 有 数据 项 自动 进行 比较 ， 判 别 该 输入 数据 项 与 CAM 中 存储 的 数据 项 
是 否 相 匹 配 ， 并 输出 该 数据 项 对 应 的 匹配 信息 。 


如 图 2.7 所 示 ， 在 CAM 中 ， 输 入 的 是 所 要 查询 的 数据 ， 输 出 的 是 数据 地 址 和 匹配 标志 。 若 匹配 ( 即 搜寻 到 数据 ) ， 则 输出 数据 地 址 。CAM 用 于 数据 检索 的 优势 是 软件 无 法 比拟 的 ， 它 可 以 极 大 地 提高 系 


匹配 标志 


2.7 CAM 的 输入 与 输出 


3.FIFO: 先进 先 出 队列 


FIFO 存 储 器 的 特点 是 先进 先 出 ， 进 出 有 序 ，FIFO 多 用 于 数据 缓冲 。FIFO 和 DPRAM 类 似 ， 具 有 两 个 访问 端口 ， 但 是 FIFO 两 边 的 端口 并 不 对 等 ， 某 一 时 刻 只 能 设置 为 一 边 作 为 输入 ， 一 边 作为 输出 。 


如 果 FIFO 的 区 域 共有 n 个 字 节 ， 我 们 只 能 通过 循环 n 次 读 取 同 一 个 地 址 才能 将 该 片区 域 读 出 ， 不 能 指定 偏 移 地 址 。 对 于 有 n 个 数据 的 FIFO， 当 循环 读 取 m 次 之 后 ， 下 一 次 读 时 会 自动 读 取 到 第 m+ 1 个 数 
据 ， 这 是 由 FIFO 本 身 的 特性 决定 的 。 


总 结 2.2 节 的 内 容 ， 可 得 出 如 图 2.8 所 示 的 存储 器 分 类 。 
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2.8 存储 器 分 类 


23 ”接口 与 总 线 


23.1 串口 


RS-232、RS-422 与 RS-485 都 是 串 行 数 据 接 


RS-232 在 1962 年 发 布 ， 命 名 为 EIA-232-E。 
为 进一步 扩展 应 


范围 ，EIA 又 于 1983 


动能 力 和 冲突 保护 特性 ， 并 扩展 了 总 线 共 模范 围 ， 


被 命名 为 TIA/EIA-485-A 标 准 。 


标准 ， 最 初 都 是 由 电子 工业 协会 (EIA) 制订 并 发 布 的 。 


之 后 发 布 的 RS-422 定 义 了 一 种 平衡 通信 接口 ， 它 是 一 种 单机 发 送 、 多 机 接收 的 单 向 、 平 衡 传 输 规范 ， 被 命名 为 TIA/EIA-422-A 标 准 。RS-422 改 进 了 RS-232 
双向 通信 能 力 ， 即 允许 多 个 发 送 器 连接 到 同一 条 总 线 上 ， 同 时 增加 了 发 送 器 的 驱 


1969 年 发 布 的 RS-232 修 改版 RS-232C 是 嵌入 式 系统 中 应 
的 只 有 9 根 ， 它 人 


线 、3 条 定时 线 、7 条 备 


最 广泛 的 串 行 接口 ， 它 为 连接 DTE (数据 终端 设备 ) 与 DCE (数据 通信 设备 ) 而 制定 。RS-232C 标 准 接口 有 25 条 线 (4 条 数据 线 、11 条 控制 


和 未 定义 线 ) ， 常 


测 ， 也 称 RLSD， 即 接收 线 信号 检 出 ) 、Ringing-RI ( 振 铃 指示 ) 、 


* RTS: 


+ CTS: 


* RxD: 


+ TxD: 


- DSR: 


- DTR: 


- DCD: 


] 是 RTS/CTS (请 求 发 送 /清除 发 送 流 控制 ) 、RxD/TxD (数据 收发 ) 、DSR/DTR (数据 终端 就 绪 /数据 设置 就 绪 流 控制 ) 、DCD (数据 载波 检 
SG (信号 地 ) 信号 。RTS/CTS、RxD/TxD、DSR/DTR 等 信号 的 定义 如 下 。 


用 来 表示 DTE 请 求 DCE 发 送 数据 ， 当 终端 要 发 送 数据 时 ， 使 该 信号 有 效 。 


用 来 表示 DCE 准 备 好 接收 DTE 发 来 的 数据 ， 是 对 RTS 的 响应 信和 号。 


DTE 通 过 RxD 接 收 从 DCE 发 来 的 串 行 数 据 。 


DTE 通 过 TxD 将 串 行 数据 发 送 到 DCE。 


有 效 (ON 状态 ) 表明 DCE 可 以 使 用 。 


有 效 (ON 状态 ) 表明 DTE 可 以 使 用 。 


当 本 地 DCE 设 备 收 到 对 方 DCE 设 备 送 来 的 载波 信号 时 ， 使 DCD 有 效 ， 通 知 DTE 准 备 接收 ， 并 且 由 DCE 将 接收 到 的 载波 信号 解 调 为 数字 信号 ， 经 RxD 线 送 给 DTE。 


Ringing RI: 当 调 制 解 调 器 收 到 交换 台 送 来 的 振 铃 呼叫 信号 时 ， 使 该 信号 有 效 (CONRES) ， 通 知 终 端 ， 已 被 呼叫 。 


最 简单 的 RS-232C 串 


组 成 一 个 RS-232C 串 | 


接 器 。 


数据 总 线 


宇 制 总 线 


2.4 CPLD 和 FPGA 


口 只 需要 连接 RxD、TxD、SG 这 3 个 信号 ， 并 使 


的 硬件 原理 如 图 2.9 所 示 ， 从 CPU 到 连接 器 依次 为 CPU、UART ( 通 


XON/XOFF 软 件 流 控 。 


异步 接收 器 发 送 器 ， 作 


是 完成 并 / 串 转换 ) 、CMOS/TTL 电 平 与 RS-232C 电 平 转换 、DB9/DB25 或 自 定义 连 
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图 2.9 RS-232C 串 口 电路 原理 


CPLD (复杂 可 编程 逻辑 器 件 ) 由 完全 可 编程 的 与 或 门 阵列 以 及 宏 单元 构成 。 


CPLD 中 的 基本 逻辑 单元 是 宏 
CPLD 的 容量 。 乘 积 项 阵列 实际 上 就 是 一 个 “与 或 ”阵列 ， 每 一 个 交叉 点 都 是 一 个 可 编程 熔 丝 ， 如 果 导 通 就 是 实现 “与 ”逻辑 。 在 “与 ”阵列 后 一 般 还 有 一 个 “或 ”阵列 ， 
的 “或 ”关系 。 图 2.19 所 示 为 非常 典型 的 CPLD 的 单个 宏 单 元 


元 由 一 些 “ 与 或 “ 


TU, 7B 


司 2.20 给 出 了 一 个 典型 CPLD 的 整体 结构 。 这 个 CPLD 由 LAB (逻辑 阵列 模块 ， 由 多 个 宏 单元 组 成 ) 通过 PIA (可 编程 互 连 阵列 ) 互 连 组 成 ， 而 CPLD 与 外 部 的 接 


阵列 加 上 触发 器 构成 ， 其 中 “与 或 ”阵列 完成 组 合 逻 辑 功 能 ， 触 发 器 完成 时 序 逻 辑 功 能 。 


宏 单 元 中 与 阵列 的 输出 称 为 乘积 项 ， 其 数量 标示 着 
以 完成 最 小 逻辑 表达 式 中 


结构 。 


则 由 MO 控制 模块 提供 。 


来 自 PIA 的 信号 
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图 2.19 ”典型 的 CPLD 的 单个 宏 单元 结构 


1/0 控制 模块 


图 2.20 ”典型 的 CPLD 整体 架构 


图 2.20 中 宏 单 元 的 输出 会 经 MO 控 制 块 送 至 VO 引 脚 ，MO 控 制 块 控制 每 一 个 /O 引 脚 的 工作 模式 ， 决 定 其 为 输入 、 输 出 还 是 双向 引 脚 ， 并 决定 其 三 态 输出 的 使 能 端 控制 。 


与 CPLD 不 同 ，FPGA (现场 可 编程 门 阵列 ) 基于 LUT (查找 表 ) 工艺 。 查 找 表 本 质 上 是 一 片 RAM ， 当 用 户 通过 原理 图 或 HDL (硬件 描述 语言 ) 描述 了 一 个 逻辑 电路 以 后 ，FPGA 开 发 软件 会 自动 计算 逻 
辑 电路 所 有 可 能 的 结果 ， 并 把 结果 事先 写 入 RAM。 这 样 ， 输 入 一 组 信号 进行 逻辑 运算 就 等 于 输入 一 个 地 址 进行 查 表 以 输出 对 应 地 址 的 内 容 。 


图 2.21 所 示 为 一 个 典型 FPGA 的 内 部 结构 。 这 个 FPGA 由 1OC (输入 /输出 控制 模块 ) 、EAB (嵌入 式 阵列 块 ) 、LAB 和 快速 通道 互 连 构成 。 
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图 2.21 典型 的 FPGA 内 部 结构 


10C 是 内 部 信号 到 /O 引 脚 的 接口 ， 它 位 于 快速 通道 的 行 和 列 的 末端 ， 每 个 IOC 包 含 一 个 双向 MO 缓冲 器 和 一 个 既 可 作为 输入 寄存 器 也 可 作为 输出 寄存 器 的 触发 器 。 


EAB (RATIER) 是 一 种 输入 输出 端 带 有 寄存 器 的 非常 灵活 的 RAM。EAB 不 仅 可 以 用 作 和 存储器， 还 可 以 事先 写 入 查 表 值 以 用 来 构成 如 乘法 器 、 纠 错 逻 辑 等 电路 。 当 用 于 RAM 时 ，EAB 可 配制 成 8 
位 、4 位 、2 位 和 1 位 长 度 的 数据 格式 。 


LAB 主 要 用 于 逻辑 电路 设计 ， 一 个 LAB 包 括 多 个 LE (逻辑 单元 ) ， 每 个 LE 包括 组 合 逻 辑 及 一 个 可 编程 触发 器 。 一 系列 LAB 构 成 的 逻辑 阵列 可 实现 普通 逻辑 功能 ， 如 计数 器 、 加 法 器 、 状 态 机 等 。 


器 件 内 部 信号 的 互 连 和 器 件 引出 端 之 间 的 信号 互 连 由 快速 通道 连 线 提供 ， 快 速 通道 遍布 于 整个 PPGA 器 件 中 ， 是 一 系列 水 平和 垂直 走向 的 连续 式 布线 通道 。 


表 2.2 所 示 为 一 个 4 输入 LUT 的 实际 逻辑 电路 与 LUT 实 现 方式 的 对 应 关系 。 


表 2.2 ”实际 逻辑 电路 与 查找 表 的 实现 


LUT 的 实际 逻辑 电路 LUT 的 实现 方式 
地 址 线 
a a 输出 
b ota b 16x 1 RAM 
输出 9 (LUT) 


aos 


PTT Tr TEE 


0000 


CPLD 和 FPGA 的 主要 厂商 有 Altera、Xilinx 和 Lattice 等 ， 它 们 采用 专门 的 开发 流程 ， 在 设计 阶段 使 用 HDL (如 VHDL、Verilog HDL) 编程 。 它 们 可 以 实现 许多 复杂 的 功能 ， 如 实现 UART、12C 等 |/O 控 
制 芯片 、 通 信 算 法 、 音 视频 编 解码 算法 等 ， 甚 至 还 可 以 直接 集成 ARM 等 CPU 内 核 和 外 围 电路 。 


对 于 驱动 工程 师 而 言 ， 我 们 只 需要 这 样 看 待 CPLD 和 FPGA: 如 果 它 完成 的 是 特定 的 接口 和 控制 功能 ， 我 们 就 直接 把 它 当成 由 很 多 逻辑 门 (与 、 非 、 或 、D 触 发 器 ) 组 成 的 可 完成 一 系列 时 序 逻 辑 和 组 合 
逻辑 的 AsIC; 如 果 它 完成 的 是 CPU 的 功能 ,我 们 就 直接 把 它 当成 CPU。 了 驱动 工程 师 眼 里 的 硬件 比 IC 设 计 师 要 宏观 。 


值得 一 提 的 是 ，Xilinx 公 司 还 推出 了 ZYNQ 芯 片 ， 内 部 同时 集成 了 两 个 Cortex-A9ARM 多 处 理 器 子 系统 和 可 编程 逻辑 FPGA， 同 时 可 编程 逻辑 可 由 用 户 配置 。 


2.5 ”原理 图 分 析 


原理 图 分 析 的 含义 是 指 通 过 阅读 电路 板 的 原理 图 获得 各 种 存储 器 、 外 设 所 使 用 的 硬件 资源 、 接 口 和 引 脚 连接 关系 。 若 要 整体 理解 整个 电路 板 的 硬件 组 成 ， 原 理 图 的 分 析 方 法 是 以 主 CPU 为 中 心 向 存储 器 
和 外 设 辐射 ， 步 骤 如 下 。 


1) 阅读 CPU 部 分 ， 获 知 CPU 的 哪些 片 选 、 中 断 和 集成 的 外 设 控制 器 在 使 用 ， 列 出 这 些 元 素 a、b、c、.…。 


CPU 引 脚 比较 多 的 时 候 ， 芯 片 可 能 会 被 分 成 几 个 模块 并 单独 画 在 原理 图 的 不 同 页 上 ， 这 时 应 该 把 相应 的 部 分 都 分 析 到 位 。 


2) 对 第 1 步 中 列 出 的 元 素 ， 从 原理 图 中 对 应 的 外 设 和 存储 器 电路 中 分 析出 实际 的 使 用 情况 。 


硬件 原理 图 中 包含 如 下 元 素 。 


“ 符号 (symbol) 。 符 号 描述 芯片 的 外 围 引 脚 以 及 引 脚 的 信号 ， 对 于 复杂 的 芯片 ， 可 能 会 被 分 割 为 几 个 符号 。 在 符号 中 ， 一 般 把 属于 同一 个 信号 群 的 引 脚 排列 在 一 起 。 图 2.22 所 示 为 NOR Flash 
AM29LV160DB 和 NAND Flash K9F2G08 的 符号 。 
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2.22 原理 图 中 的 符号 
“网络 (net) 。 描 述 芯片 、 接 插件 和 分 离 元 器 件 引 脚 之 间 的 互 连 关系 ， 每 个 网 络 需要 根据 信号 的 定义 赋予 一 个 合适 的 名 字 ， 如 果 没 有 给 网 络 取 名 字 ，EDA 软 件 会 自动 添加 一 个 默认 的 网 络 名 。 添 加 网 络 


后 的 AM29LV160DB 如 图 2.23 所 示 。 


“ 描述 。 原 理 图 中 会 添加 一 些 文字 来 辅助 档 述 原理 图 (类 似 源 代码 中 的 注释 ) ， 如 每 页 页 脚 会 有 该 页 的 功能 描述 ， 对 重要 的 信号 ， 在 原理 图 的 相应 符号 和 网 络 中 也 会 附带 文字 说 明 。 图 2.24 中 给 出 了 原 


理 图 中 的 描述 示例 。 
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A223 原理 图 中 的 网 络 


LDDD3 Evaluation Board Schematics 


Revision Data Description 


Vl 2014.3.26 


2.24 原理 图 中 的 描述 示例 


2.6 ”硬件 时 序 分 析 


2.6.1 ”时 序 分 析 的 概念 


驱动 工程 师 一 般 不 需要 分 析 硬件 的 时 序 ， 但 是 鉴于 许多 企业 内 驱动 工程 师 还 需要 承担 电路 板 调 试 的 任务 ， 因 此 ， 掌 握 时 序 分 析 的 方法 也 就 比较 必要 了 。 


对 驱动 工程 师 或 硬件 工程 师 而 言 ， 时 序 分 析 的 意思 是 让 芯片 之 间 的 访问 满足 芯片 数据 手册 中 时 序 图 信号 有 效 的 先后 顺序 、 采 样 建立 时 间 (Setup Time) 和 保持 时 间 (Hold Time) 的 要 求 ， 在 电路 板 工 


作 不 正常 的 时 候 ， 准 确 地 定位 时 序 方面 的 问题 。 


建立 时 间 是 指 在 触发 器 的 时 钟 信号 边沿 到 来 以 前 ， 数 据 已 经 保持 稳定 不 变 的 时 间 ， 如 果 建 立时 间 不 够 ， 数 据 将 不 能 在 这 个 时 钟 边 沿 被 打 入 触发 器 ; 保持 时 间 是 指 在 触发 器 的 时 钟 信 号 边沿 到 来 以 后 ， 数 


据 还 需 稳定 不 变 的 时 间 ， 如 果 保持 时 间 不 够 ， 数 据 同样 不 能 被 打 入 触发 器 。 如 图 2.25 所 示 ， 数 据 稳定 传输 必须 满足 建立 时 间 和 保持 时 间 的 要 求 ， 当 然 ， 在 一 些 情况 下 ， 建 立时 间 和 保持 时 间 的 值 可 以 为 零 。 


ES 


OO 


建立 时 间 ”保持 时 间 


图 2.25 ”建立 时 间 和 保持 时 间 


2.7 ”芯片 数据 手册 阅读 方法 


芯片 数据 手册 往往 长 达 数 百 页 ， 甚 至 上 干 页 ， 而 且 全 部 是 英文 ， 从 头 到 尾 不 加 区 分 地 阅读 需要 花费 非常 长 的 时 间 ， 而 且 不 一 定 能 获取 对 设计 设备 驱动 有 帮助 的 信息 。 芯 片 数据 手册 的 正确 阅读 方法 是 快 
速 而 准确 地 定位 有 用 信息 ， 重 点 阅读 这 些 信息 ， 忽 略 无 关内 容 。 下 面 以 33C6410A 的 数据 手册 为 例 来 分 析 阅 读 方法 ， 为 了 直观 地 反映 阅读 过 程 ， 本 节 的 图 都 是 直接 从 数据 手册 中 抓 屏 而 得 到 的 。 


打开 S3C6410A 的 数据 手册 ， 发 现 页 数 为 1378 页 ， 从 头 读 到 尾 是 不 现实 的 。 


S3C6410A 数 据 手册 的 第 1 章 “PRODUCT OVERVIEW" (产品 综述 ) 是 必 读 的 ， 通 过 阅读 这 一 部 分 可 以 获知 整个 芯片 的 组 成 。 这 一 章 往 往 会 给 出 一 个 芯片 的 整体 结构 图 ， 并 对 芯片 内 的 主要 模块 进行 
一 个 简洁 的 描述 。S3C6410A 的 整体 结构 图 如 图 2.27 所 示 〈 见 数据 手册 第 61 页 ) 。 


1.2 FEATURES 
This section summarizes the features of the S3C6410X. Figure 1-1 is an overall block diagram of the S3C6410X. 
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图 2.27 S3C6410A 数 据 手册 中 的 芯片 结构 


第 2~43 章 中 的 每 一 章 都 对 应 S3C6410A 整 体 结构 图 中 的 一 个 模块 ， 图 2.28 为 从 Adobe Acrobat 中 直接 抓 取 的 S53C6410A 数 据 手册 的 目录 结构 图 。 
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$828 "MemoryMap” 


图 


2.28 S3C6410A 数 据 手册 的 目录 结构 


(内 存 映 射 ) 比较 关键 ， 对 于 定位 存储 器 和 外 设 所 对 应 


的 基 址 有 直接 指导 意义 ， 这 一 部 分 应 该 细 看 。 


第 3~34 章 对 应 于 CPU 内 部 集成 的 外 设 或 总 线 控制 器 ， 当 具体 编写 某 接口 的 驱动 时 ， 应 该 详细 阅读 ， 主 要 是 分 析 数 据 、 控 制 、 地 址 寄存 器 (数据 手册 中 一 般 会 以 表格 列 出 ) 的 访问 控制 和 具体 设备 的 操作 


流程 (数据 手册 中 会 给 出 步骤 ， 有 的 还 会 给 出 流程 图 ) 。 


$844 “ELECTRICAL DATA” 


(对 于 电气 数据 ， 在 图 


譬如 为 了 编写 S3C6410A 的 12C 控 制 器 驱动 ， 我 们 需要 详细 阅读 类 似 图 2.29 的 寄存 器 定义 表格 和 图 2.30 的 操作 流程 图 。 


节 ， 这 一 章 对 于 硬件 工程 师 比较 关键 ， 但 是 ， 一 般 来 说， 驱动 工程 师 并 不 需要 阅读 。 


第 45 章 “MECHANICAL DATA" 


2.28 中 未 画 出 ) ， 描 述 芯片 的 电气 特性 ， 如 电压 、 电 流 和 各 种 工作 模式 下 的 时 序 、 建 立时 间 和 保持 时 间 的 要 求 。 所 有 的 数据 手册 都 会 包含 类 似 章 


(机 械 数 据 ) 描述 芯片 的 物理 特性 、 尺 寸 和 封装 ， 硬 件 工 程 师 会 依据 这 一 章 绘制 芯片 的 封装 (Footprint) ， 但 是 ， 驱 动工 程 师 无 须 阅读 。 


30.11.1 MULTI-MASTER IIC-B US CONTROL (lICCON) REGISTER 


Register | Address | RW | Description _— | Reset Value | 
F0x7F004000 | RW _ [NG Chamel 0 Bus contol register ox | 
0x7F00F000 | RW | lIC Channel 1 Bus control register 


Acknowledge generation lIC-bus acknowledge (ACK) enable bit. 

(1) 0: Disable 
1: Enable 
In Tx mode, the lICSDA is free in the ACK time. 
In Rx mode, the IICSDA is L in the ACK time. 


Source clock of IIC-bus transmit clock prescaler 
selection bit. 

0: IICCLK = PCLK /16 

1: ICCLK = PCLK /512 


lIC-Bus Tx/Rx interrupt enable/disable bit. 
0: Disable, 1: Enable 


Interrupt pending flag (2) lIC-bus Tx/Rx interrupt pending flag. This bit cannot be 
(3) written to 1. When this bit is read as 1, the IICSCLis 
tied to L and the IIC is stopped. To resume the 
operation, clear this bit as 0. 
0: 1) No interrupt pending (when read). 
2) Clear pending condition & 
Resume the operation (when write). 
1: 1) Interrupt is pending (when read) 
2) N/A (when write) 


Transmit clock value (4) lIC-Bus transmit clock prescaler. Undefined 
lIC-Bus transmit clock frequency is determined by this 
4-bit prescaler value, according to the following 


formula: 
Tx clock = IICCLK/(IICCON[3:0] +1). 


图 2.29 ”芯片 数据 手册 中 以 表格 形式 列 出 的 寄存 器 定义 


30.10 FLOWCHARTS OF OPERATIONS IN EACH MODE 
The following steps must be executed before any IIC TxRx operations. 


1. Write own slave address on |ICADD register, if needed. 
2 Set lICCON register. 

a) Enable interrupts 

b) Define SCL period 
3. SetlICSTAT to enable Serial Output 


(START) 
Mas ter Tx mode has 
been configured. 
White slave address to 
ICDS. 


Waite OFO (WT 
Start) 1o IICSTAT. 


The data of the ICDS is 
transmitted. 


Write 0xDO (MT 
Stop}  IICSTAT. 


图 2.30 ”芯片 数据 手册 中 给 出 的 外 设 控 制 器 的 操作 流程 


2.8 仪器 仪表 使 用 


2.8.1 ”万用表 


在 电路 板 调试 过 程 中 主要 使 用 万 用 表 的 两 个 功能 。 


“ 测量 电 平 。 


“ 使 用 二 极 管 挡 测量 电路 板 上 网 络 的 连通 性 ， 当 示波器 被 设置 在 二 极 管 挡 ， 测 量 连 通 的 网 络 会 发 出 “ 喃 喃 ”的 鸣叫 ， 否 则 ， 没 有 连通 。 


本 章 简单 地 讲解 了 驱动 软件 工程 师 必 备 的 硬件 基础 知识 ， 描 述 了 处 理 器 、 存 储 器 的 分 类 以 及 各 种 处 理 器 、 存 储 器 的 原理 与 用 途 ， 并 分 析 了 常见 的 外 围 设备 接口 


此 外 ， 本 章 还 讲述 了 对 驱动 工程 师 进行 实际 项 目 开发 有 帮助 的 原理 图 、 硬 件 时 序 分 析 方法 ， 芯 片 数据 手册 阅读 方法 以 及 万 用 表 、 示 波 器 和 逻辑 分 析 仪 的 使 用 方法 。 


本 章 导 读 


第 3 章 Linux 内 核 及 内 核 编程 


本 章 有 助 于 读者 打下 Linux 驱 动 编程 的 软件 基础 。 由 于 Linux 驱 动 编程 的 本 质 属于 Linux 内 核 编 程 ， 因 此 我 们 有 必要 熟悉 Linux 内 核 及 内 核 编程 的 基础 知识 。 


3.1~3.2 节 讲解 了 Linux 内 核 的 演变 及 新 版 Linux 内 核 的 特点 。 


3.3 节 分 析 了 Linux 内 核 源 代码 目录 结构 和 Linux 内 核 的 组 成 部 分 及 其 关系 ， 并 对 Linux 的 用 户 空间 和 内 核 空间 进行 了 说 明 。 


3.4 节 讲述 了 Linux 内 核 的 编译 及 内 核 的 引导 过 程 。 除 此 


3.5 节 阐述 了 Linux 下 C 编 程 的 命名 习惯 以 及 Linux 所 使 用 


3.6 节 讲解 了 Linux 的 工具 链 以 及 工具 链 对 浮 点 的 支持 情 


3.7 节 介绍 了 公司 或 学 校 的 实验 室 建设 情况 。 


3.8 节 介绍 了 Linux 下 的 串口 工具 。 


3.1 Linux 内 核 的 发 展 与 演变 


Linux 操 作 系统 是 UNIX 操 作 系统 的 一 种 克隆 系统 ， 是 一 种 类 UNIX 操 作 系统 ， 诞 生 了 


之 外 ， 还 描述 了 在 Linux 内 核 中 新 增 程序 的 方法 ， 驱 动工 程 师 编写 的 设备 驱动 也 应 该 以 此 方式 添加 。 


的 GNU C 针 对 标准 C 的 扩展 语法 。 


况 。 


过 程 依赖 着 5 个 重要 支柱 : UNIX 操 作 系统 、Minix 操 作 系统 、GNU 计 划 、POSIX 标 准 和 Internet。 


1.UNIX 操 作 系 统 


UNIX 操 作 系 统 是 美国 贝尔 实验 室 的 Ken.Thompson 和 Dennis Ritchie-19694 


2.Minix 操 作 系 统 


Minix 操 作 系统 也 是 UNIX 的 一 种 克隆 系统 ， 它 于 1987 生 


开始 就 是 参照 Minix 系 统 了 


3.GNU 计 划 


与 总 线 的 工作 方式 。 


F1991 年 10 月 5 日 (第 一 次 正式 向 外 公布 的 时 间 ) ， 起 初 的 作者 是 Linus Torvalds。Linux 操 作 系统 的 诞生 、 发 


F 夏 在 DEC PDP-7 小 型 计算 机 上 开发 的 一 个 分 时 操作 系统 。Linux 操 作 系统 可 看 作 UNIX 操 作 系统 的 一 个 克隆 版 本 。 


展 和 成 长 


由 著名 计算 机 教授 Andrew S.Tanenbaum 开 发 完成 。 有 开放 源 代码 的 Minix 系 统 的 出 现在 全 世界 的 大 学 中 刊 起 了 学 习 UNIX 系 统 的 旋风 。Linux 刚 


F1991 年 开发 的 。 


GNU 计 划 和 自由 软件 基金 会 (FSF) 是 由 Richard M.Stallman 于 1984 年 创办 的 ，GNU 是 “GNU's Not UNIX” 的 缩写 。 到 20 世 纪 90 年 代 初 ，GNU 项 目 已 经 开发 出 许多 高 


此 ， 严 格 来 说 ，“Linux” 


应 该 称 为 “GNU/Linux” 系 统 。 


质量 的 免费 软件 ， 其 中 包括 
emacs 编 辑 系 统 、bash shell 程 序 、gcc 系 列 编译 程序 、GDB 调 试 程序 等 。 这 些 软件 为 Linux 操 作 系 统 的 开发 创造 了 一 个 合适 的 环境 ， 是 Linux 诞 生 的 基础 之 一 。 没 有 GNU 软 件 环境 ，Linux 将 寸步 难 行 。 


下 面 从 左 到 右 依次 为 前 文 所 提 到 的 5 位 大 师 Linus Torvalds, Dennis Ritchie、Ken.Thompson、Andrew S.Tanenbaum, Richard M.Stallman。 但 愿 我 们 能 够 追随 大 师 的 足迹 ， 让 自己 不 断 地 成 长 与 


进步 。Linus Torvalds 的 一 番 话 甚 为 有 道理 : 


“Most good programmers do programming not because they expect to get paid or get adulation by the public, but because it is fun to 


program.” 技 术 成 长 的 源 动 力 应 该 是 兴趣 而 非 其 他 ， 只 有 兴趣 才 可 以 支撑 一 个 人 持续 不 断 地 十 年 如 一 日 地 努力 与 学 习 。Linus Torvalds 本 人 ， 虽 然 已 经 是 一 代 大 师 ， 仍 然 在 不 断 地 管理 和 合并 Linux 内 核 的 代 
码 。 这 点 ， 在 国内 浮躁 的 学 术 氛 围 之 下 ， 几 乎 是 不 可 思议 的 。 我 想 ， 中 国 梦 至 少 包含 每 个 码 农 都 可 以 因为 技术 成 长 而 得 到 人 生出 彩 的 机 会 。 


4.POSIX 标 准 


POSIX (Portable Operating System Interface， 可 移植 的 操作 系统 接口 ) 是 由 IEEE 和 ISO/IEC 开 发 的 一 组 标准 。 该 标准 基于 现 有 的 UNIX 实 践 和 经 验 完成 ， 描 述 了 操作 系统 的 调用 服务 接 
编写 的 应 用 程序 可 以 在 源 代码 级 上 在 多 种 操作 系统 中 移植 。 该 标准 在 推动 Linux 操 作 系统 朝 着 正规 化 发 展 ， 是 Linux 前 进 的 灯塔 。 


5. 互 联网 


， 用 于 保证 


如 果 没 有 互联 网 ， 没 有 遍布 全 世界 的 无 数 计算 机 骇 客 的 无 私 奉献 ， 那 么 Linux 最 多 只 能 
Linus 以 及 其 他 维护 者 的 主要 任务 开始 变 成 对 内 核 的 维护 和 决定 是 否 采 用 某 个 补丁 程序 。 


发 


展 到 Linux 0.13 (0.95) 版 本 的 水 平 。 从 Linux 0.95 版 开始 ， 对 内 核 的 许 


表 3.1 描 述 了 Linux 操 作 系 统 重 


表 3.1 Linux 操 作 系 统 版 本 的 历史 及 特点 


版 本 


Linux 0.1 最 初 的 原型 


1991 年 


多 改进 和 扩充 均 以 其 他 人 为 主 了 ， 而 


Linux 1.0 1994 4 包含 了 386 WAT See, MCE CPU 系统 
Linnz 12 第 一 个 包含 多 平台 (Alpha, Sparc, MIPS 等 ) 支持 的 官方 版 本 
包含 很 多 新 的 平台 支持 ， 最 重要 的 是 ， 它 是 第 一 个 支持 SMP (对 称 多 
Linux 2.0 1996 年 6 月 ee ee j 
处 理 器 ) 体系 的 内 核 版 本 
Linux 2.2 1999 4 极 大 提升 SMP 系统 上 Linux 的 性 能 ， 并 支持 更 多 的 硬件 
进一步 提升 了 SMP 系统 的 扩展 性 ， 同 时 也 集成 了 很 多 月 持 桌 面 系 
Linux 2.4 2001 年 1 月 Pi: Ni eee Iy 展 人 Lia n K y 于 支持 时 面 和 
统 的 特性 : USB, PC E (PCMCIA) 的 支持 ， 内 置 的 即 插 即 用 等 
无 论 是 对 于 企业 服务 器 还 PEAN Linux 2.6 都 是 一 个 巨 
大 的 进步 。 对 高 端 机 器 来 说 ， 新 特性 针对 的 是 性 能 改进 、 可 icin fr 
吐 率 ， 以 及 对 SMP 机 器 NUMA AY SR, MTR A SRS, 添加 了 新 的 


Linux 2.6.0 ~ 2.6.39 


体系 结构 和 处 理 器 类 型 。 包 括 对 那些 没有 硬件 控制 
MMU 系统 的 支持 。 同 样 ， 为 了 满足 桌面 用 户 群 的 需 
的 音频 和 多 媒体 驱动 程序 

Linux 3.0 ~ 3.19、 开发 热点 聚焦 于 虚拟 化 、 新 文件 系统 、Android、 


AY ATE 
要 ， 添 加 了 


方案 的 无 
-整套 新 


Z yl: 
AR =A 


新 体系 结构 支持 以 及 


Linux 4.0-rel 44 性 能 优化 等 

Linux 内 核 通常 以 2~ 3 个 月 为 周期 更 新 一 次 大 的 版 本 号 ， 如 Linux 2.6.34 是 在 2010 年 5 月 发 布 的 ，Linux 2.6.35 的 发 布 时 间 则 为 2010 年 8 月 。Linux 2.6 的 最 后 一 个 版 本 是 Linux 2.6.39， 之 后 Linux 内 核 过 渡 
到 Linux 3.0 版 本 ， 同 样 以 2~3 个 月 为 周期 更 新 小 数 点 后 第 一 位 。 因 此 ， 内 核 Linux 3.x 时 代 ，Linux 3 和 Linux 2.6 的 地 位 对 等 ， 因 此 ，Linux 2.6 时 代 的 版 本 变更 是 Linux 2.6.N~2.6.N+1 以 2~3 个 月 为 周期 递 
进 ， 而 Linux 3.x 时 代 后 ， 则 是 Linux 3.N~3.N+1 以 2~3 个 月 为 周期 递 进 。Linux 3.x 的 最 后 一 个 版 本 是 Linux 3.19, 


因 


在 Linux 内 核 版 本 发 布 后 ， 还 可 以 进行 一 个 修复 bug 或 者 少量 特性 的 反 向 移植 (Backport， 即 把 新 版 本 中 才 有 的 补丁 移植 到 
如 Linux 2.6.35.1、Linux 2.6.35.2、Linux 3.10.1 和 Linux 3.10.2 等 。 此 类 已 经 发 布 
动 (第 3 版 ) 》 的 作者 之 一 。 


已 经 发 布 的 老 版 本 中 ) 的 工作 ， 这 样 的 版 本 以 小 数 点 后 最 后 一 位 的 形式 发 布 ， 
的 版 本 的 维护 版 本 通常 是 由 Greg Kroah-Hartman 等 人 进行 管理 的 。Greg Kroah-Hartman 是 名 著 LDD3 (《Linux 设 备 驱 


关于 Linux 内 核 从 Linux 2.6.39 变 更 为 Linux 3.0 的 变化 ， 按 照 Linus Torvalds 的 解释 ， 并 没有 什么 大 的 改变 : 
changes, and a lot of random fixes, but the point is that 3.0is*just*about renumbering, we are very much*not*doing a KDE-4or a Gnome-3here.No breakage, no special scary new 


因此 ， 简 单 来 说 ， 版 本 号 变更 为 “3.x” 的 原因 就 是 “我 喜欢 ”。 


“NOTHING.Absolutely nothing.Sure, we have the usual two thirds driver 


features, nothing at all like that.” 


关于 Linux 内 核 每 一 个 版 本 具体 的 变更 ， 可 以 参考 网 页 http://kernelnewbies.org/LinuxVersions， 比 如 Linux 3.15 针 对 Linux 3.14 的 变更 归纳 在 : http://kernelnewbies.org/Linux_3.15, 


就 在 本 书写 作 的 过 程 中 ，2015: 


F2 月 23 


， 也 迎 来 了 Linux 4.0-rc1 的 诞生 ， 而 理由 仍然 是 那么 “无 厘 头 ”: 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/..after extensive statistical analysis of my G+ polling, I've come 
to the inescapable conclusion that internet polls are bad. 

Big surprise. 

But"Hurr durr I'ma sheep"trounced'l like online polls"by a 62-to-38% margin, in a poll that people weren't even supposed to participate in. 

Who can argue with solid numbers like that 5796 votes from people who can't even follow the most basic directions 

In contrast, "v4.0"beat out"v3.20"by a slimmer margin of 56-to-44%, but with a total of 29110 votes right now. 


Now, arguably, that vote spread is only about 3200 votes, which is less than the almost six thousand votes that the"please ignore"poll got, so it could be considered noise. 


But hey, | asked, so I'll honor the votes. 


从 表 3.1 可 以 看 出 ，Linux 的 开发 一 直 朝 着 支持 更 多 的 CPU、 硬 件 体 系 结构 和 外 部 设备 ， 支 持 更 广泛 领域 的 应 用 ， 提 供 更 好 的 性 能 这 3 个 方向 发 展 。 按 照 现 在 的 状况 ，Linux 内 核 本 身 基 本 没有 大 的 路 线 
蜀 ， 完 全 是 根据 使 用 Linux 内 核 的 企业 和 个 人 的 需求 ， 被 相应 的 企业 和 个 人 开发 出 来 并 贡献 给 Linux 产 品 线 的。 简单 地 说 ，Linux 内 核 是 一 个 演变 而 不 是 一 个 设计 。 关 于 Linux 的 近期 热点 和 走向 ， 可 以 参考 位 


于 http://www.linuxfoundation.org/news-media/Iwf 的 《Linux Weather Forecast》。 


除了 Linux 内 核 本 身 可 提供 免费 下 载 以 外 ， 一 些 厂商 封装 了 Linux 内 核 和 大 量 有 用 的 软件 包 、 中 间 件 、 
Hat、Fedora、Debian、SuSe、Gentoo 等 ， 国 内 的 红旗 Linux 开 发 商 中 科 红旗 则 已 经 宣布 倒闭 。 


桌面 环境 和 应 


程序 ， 制 定 了 针对 桌面 PC 和 服务 器 的 Linux 发 行 版 (Distro) ， 如 Ubuntu、Red 


国 


再 者 ， 针 对 嵌入 式 系统 的 应 
等 。 


， 一 些 集成 和 优化 内 核 、 开 发 工具 、 中 间 件 和 UI 框架 的 嵌入 式 Linux 被 开发 出 来 了 ,例如 MontaVista Linux, Mentor Embedded Linux, MeeGo, Tizen, Firefox OS 


Android) 


3.1 显 示 了 Linux 2.6.13 以 来 每 个 内 核 版 本 参与 的 人 、 组 织 的 情况 以 及 每 次 版 本 演进 的 时 候 被 改变 的 代码 行 数 和 补丁 的 数量 。 
变 的 代码 行 数 超过 100 万 行 ， 补 丁 数量 达 1 万 个 。 


Commit Count 
13720 


Change 


前 每 次 版 本 升级 ， 都 有 分 布 了 


1787551 


1608795 


1430040 


1251285 


1072530 


893775 


715020 


526265 


357510 


178755 


How Many People and Org are Commiting 


3.2 Linux 2.6 后 的 内 核 特 点 


Linux 2.6 内 核 是 Linux 开 发 者 群落 一 个 寄予 厚望 的 版 本 ， 从 2003 年 12 月 直至 2011 年 7 月 ， 内 核 重新 进行 了 版 本 的 编号 ， 从 而 过 渡 到 Linux 3.x 版 本 直到 成 书 时 的 Linux 4.0-rc1。 


Linux 2.6 相 对 于 Linux 2.4 有 相当 大 的 改进 ， 主 要 体现 在 如 下 几 个 方面 。 


1. 新 的 调度 器 


Linux 2.6 以 后 版 本 的 Linux 内 核 使 


了 新 的 进程 调度 算法 ， 它 在 高 负载 的 情况 下 有 极其 出 色 的 性 能 ， 并 且 当 有 很 多 处 理 器 时 也 可 以 很 好 地 扩展 。 在 Linux 内 核 2.6 的 早期 采 
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图 3.1 Linux 内 核 开 发 人 员 和 补丁 情况 


Linux 内 核 ， 但 是 在 内 核 里 加 入 了 一 系列 补丁 ， 如 Binder、ashmem、wakelock、low memory killer、RAM_CONSOLE 等 ， 目 前 ， 这 些 补丁 中 的 绝 大 多 数 已 经 进入 Linux 的 产品 线 。 


Changed Line 


How Many Organizitions 


CFS (Completely Fair Scheduler， 完 全 公平 调度 ) 算法 。 在 Linux 3.14 中 ， 也 增加 了 一 个 新 的 调度 类 : SCHED_DEADLINE， 它 实现 了 EDF (Earliest Deadline First， 最 早 截止 期 限 优先 ) 调度 算法 。 


2. 内 核 抢占 


在 Linux 2.6 以 后 版 本 的 Linux 内 核 中 ， 一 个 内 核 任务 可 以 被 抢占 ， 从 而 提高 系统 的 实时 性 。 这 样 做 最 主要 的 优势 在 于 ， 可 以 极 大 地 增强 系统 的 


交互 性 ， 


将 会 觉得 鼠标 


击 和 击 键 的 对 


到 件 得 到 


F200 多 个 组 织 超过 1000 人 提交 代码 ， 被 改 


TO (1) 算法 ,之 后 转移 到 


更 快速 的 自 
锁 


MARZ. Linux 2.6 以 后 的 内 核 版 本 还 是 存在 一 些 不 可 抢占 的 区 间 ， 如 中 断 上 下 文 、 软 中 断 上 下 文 和 


旋 锁 锁 住 的 区 间 ， 如 果 给 Linux 内 核 打 上 RT-Preempt 补 丁 ， 则 中 断 和 软 中 断 都 被 线程 化 了 ， 自 


也 被 互 斥 体 蔡 换 ，Linux 内 核 变 得 能 支持 硬 实时 。 


如 图 


回 


户 空间 的 时 候 ，RT 任 务 才 能 切入 ; 而 在 Linux 2.6 内 核 中 ，Normal 任 务 的 关键 部 分 (如 
自 旋 锁 等 原子 上 下 文 进程 无 法 抢占 执行 的 情况 ， 这 是 Linux 内 核 本 身 只 提供 软 实时 能 力 的 原因 。 


3.2 所 示 ， 左 侧 是 Linux 2.4， 右 侧 是 Linux 2.6 以 后 的 内 核 。 在 Linux 2.4 的 内 核 中 ， 在 IRQ1 的 中 断 | 


DH 


及 务 程序 唤醒 RT (实时 ) 任务 后 ， 必 须要 等 待 前 面 一 个 Normal (普通 ) 任务 的 系统 调 
自 旋 锁 ) 结束 的 时 候 ，RT 任 务 就 从 内 核 切入 了 。 不 过 也 可 以 看 出 ，Linux 2.6 以 后 的 内 核 仍 然 存在 中 断 、 软 中 断 、 


完成 ， 


关键 部 分 系统 调 关键 部 分 
系统 调用 | 外 部 事件 系统 调用 完成 RT ”用 完成 外 部 事件 


系统 调用 完 


任务 ll 任务 
普通 普通 
任务 一 任务 
系统 调用 TEETE 系统 调用 
IRQI IRQI 
处 理 程序 处 理 程序 
IRQ2 L) IRQ2 
处 理 程 序 处 理 程序 
唤醒 RT 任务 
RT 任务 运行 
图 3.2 Linux 2.4 和 2.6 以 后 的 内 核 在 抢占 上 的 区 别 
3. 改 进 的 线程 模型 


Linux 2.6 以 后 版 本 中 的 线程 采用 NPTL (Native POSIX Thread Library， 本 地 POSIX 线 程 库 ) 模型 ， 操 作 速 度 得 以 极 大 提高 ， 相 比 于 Linux 2.4 内 核 时 代 的 LinuxThreads 模 型 ， 它 也 更 加 遵循 POSIX 规 范 
的 要 求 。NPTL 没 有 使 用 LinuxThreads 模 型 中 采用 的 管理 线程 ， 内 核 本 身 也 增加 了 FUTEX (Fast Userspace Mutex, RRP SER) ， 从 而 减 小 多 线程 的 通信 开销 。 


4. 虚 拟 内 存 的 变化 


从 虚拟 内 存 的 角度 来 看 ， 新 内 核 融 合 了 r-map (RARI) 技术 ， 显 著 改 善 虚拟 内 存在 一 定 大 小 负载 下 的 性 能 。 在 Linux 2.4 中 ， 要 回收 页 时 ， 内 核 的 做 法 是 遍历 每 个 进程 的 所 有 PTE 以 判断 该 PTE 是 否 与 
该 页 建立 了 映射 ， 如 果 建 立 了 ， 则 取消 该 映射 ， 最 后 无 PTE 与 该 页 相关 联 后 才 回收 该 页 。 在 Linux 2.6 后 ， 则 建立 反 向 映射 ， 可 以 通过 页 结构 体 快速 寻找 到 页 面 的 映射 。 


5 文件 系统 


Linux 2.6 版 内 核 增加 了 对 日 志文 件 系 统 功能 的 支持 ， 解 决 了 Linux 2.4 版 本 在 这 方面 的 不 足 。Linux 2.6 版 内 核 在 文件 系统 上 的 关键 变化 还 包括 对 扩展 属性 及 POSIX 标 准 访问 控制 的 支持 。ext2/ext3/ext4 
作为 大 多 数 Linux 系 统 默认 安装 的 文件 系统 ， 在 Linux 2.6 版 内 核 中 增加 了 对 扩展 属性 的 支持 ， 可 以 给 指定 的 文件 在 文件 系统 中 嵌入 元 数据 。 


在 文件 系统 方面 ， 当 前 的 研究 热点 是 基于 B 树 的 Btrfs，Btrfs 称 为 是 下 一 代 Linux 文 件 系 统 ， 它 在 扩展 性 、 数 据 一 致 性 、 多 设备 管理 和 针对 SSD 的 优化 等 方面 都 优 于 ext4。 


6. 音 频 


高 级 Linux 音 频 体系 结构 (Advanced Linux Sound Architecture, ALSA) 取代 了 缺陷 很 多 上 昌 的 OSS (Open Sound System) 。ALSA 支 持 USB 音 频 和 MIDI 设 备 ， 并 支持 全 双 工 重 放 等 功能 。 


7 总 线 、 设 备 和 驱动 模型 


在 Linux 2.6 以 后 的 内 核 中 ， 总 线 、 设 备 、 驱 动 三 者 之 间 因 为 一 定 的 联系 性 而 实现 对 设备 的 控制 。 总 线 是 三 者 联系 起 来 的 基础 ， 通 过 一 种 总 线 类 型 ， 将 设备 和 驱动 联系 起 来 。 总 线 类 型 中 的 match () 函 
数 用 来 匹配 设备 和 驱动 ， 当 匹配 操作 完成 之 后 就 会 执行 驱动 程序 中 的 probe () 函数 。 


8. 电 源 管理 


支持 高 级 配置 和 电源 接口 (Advanced Configuration and Power Interface，ACPI) ， 用 于 调整 CPU 在 不 同 的 负载 下 工作 于 不 同 的 时 钟 频率 以 降低 功 耗 。 目 前 ，Linux 内 核 的 电源 管理 (PM) 相对 比 
完善 了 ， 包 括 CPUFreq、CPUIldle、CPU 热 插 拔 、 设 备 运行 时 (runtime) PM、Linux 系 统 挂 起 到 内 存 和 挂 起 到 硬盘 等 全 套 的 支持 ， 在 ARM 上 的 支持 也 较 完备 。 


9. 联 网 和 IPSec 


Linux 2.6 内 核 中 加 入 了 对 IPSec 的 支持 ， 删 除了 原来 内 核 内 置 的 HTTP 服 务 器 khttpd， 加 入 了 对 新 的 NFSv4 (网 络 文件 系统 ) 客户 机 /服务 器 的 支持 ， 并 改进 了 对 IPv6 的 支持 。 


10. 用 户 界面 层 


Linux 2.6 内 核 重 写 了 帧 缓冲 /控制 台 层 ， 人 机 界面 层 还 加 入 了 对 近乎 所 有 接口 设备 的 支持 (从 触摸 屏 到 言 人 用 的 设备 和 各 种 各 样 的 鼠标 ) 。 


在 设备 驱动 程序 方面 ，Linux 2.6 相 对 于 Linux 2.4 也 有 较 大 的 改动 ， 这 主要 表现 在 内 核 API 中 增加 了 不 少 新 功能 (例如 内 存 池 ) 、sysfs 文 件 系统 、 内 核 模 块 从 .0 变 为 .ko、 驱 动 模块 编译 方式 、 模 块 使 用 计 
数 、 模 块 加载 和 印 载 函数 的 定义 等 方面 。 


11.Linux 3.0 后 ARM 架 构 的 变更 


Linus Torvalds 在 2011 年 3 月 17 日 的 ARM Linux 邮 件 列表 中 宣称 “this whole ARM thing is a f*cking pain in the ass”， 这 引发 了 ARM Linux 社 区 的 地 震 ， 随 后 ARM 社 区 进行 了 一 系列 重大 修正 。 社 
区 必须 改变 这 种 局 面 ， 于 是 PowerPC 等 其 他 体系 结构 下 已 经 使 用 的 FDT (Flattened Device Tree) 进入 到 了 ARM 社 区 的 视野 。 


此 外 ，ARM Linux 的 代码 在 时 钟 、DMA、pinmux、 计 时 器 刻度 等 诸多 方面 都 进行 了 优化 和 调整 ， 也 删除 了 arch/arm/mach-xxx/include/mach 头 文件 目录 ， 以 至 于 Linux 3.7 以 后 的 内 核 可 以 支持 多 平 
台 ， 即 用 同一 份 内 核 镜像 运行 于 多 家 SoC 公 司 的 多 个 芯片 ， 实 现 “ 一 个 Linux 可 适用 于 所 有 的 ARM 系 统 ”。 


3.3 Linux 内 核 的 组 成 


3.3.1 Linux 内 核 源 代 码 的 目录 结构 


Linux 内 核 源 代 码 包 含 如 下 目录 。 


arch: 包含 和 硬件 体系 结构 相关 的 代码 ， 每 种 平台 占 一 个 相应 的 目录 ， 如 i386、arm、arm64、powerpc、mips 等 。Linux 内 核 目 前 已 经 支持 30 种 左右 的 体系 结构 。 在 arch 目 录 下 ， 存 放 的 是 各 个 平台 以 及 各 
个 平台 的 芯片 对 Linux 内 核 进 程 调度 、 内 存 管 理 、 中 断 等 的 支持 ， 以 及 每 个 具体 的 SoC 和 电路 板 的 板 级 支持 代码 。 


‘block: 块 设备 驱动 程序 I/O 调 度 。 

‘crypto: 常用 加 密 和 散 列 算法 (如 AES、SHA 等 ) ， 还 有 一 些 压缩 和 CRC 校 验算 法 。 

. documentation: 内 核 各 部 分 的 通用 解释 和 注释 。 

- drivers: 设备 驱动 程序 ， 每 个 不 同 的 驱动 占用 一 个 子 目录 ， 如 char、block、net、mtd、i2c 等 。 
“全: 所 支持 的 各 种 文件 系统 ， 如 EXT、FAT、NTFS、JFFS2 等 。 

< include: 头 文件 ， 与 系统 相关 的 头 文 件 放置 在 include/linux 子 目录 下 。 

“init; 内 核 初始 化 代码 。 著 名 的 start_kernel () 就 位 于 init/main.c 文 件 中 。 

' ipc: 进程 间 通信 的 代码 。 

“ kernel: 内 核 最 核心 的 部 分 ， 包 括 进程 调度 、 定 时 器 等 ， 而 和 平台 相关 的 一 部 分 代码 放 在 arch/*/kernel 目 录 下 。 
“ lib: 库 文件 代码 。 

` mm:; 内 存 管理 代码 ， 和 平台 相关 的 一 部 分 代码 放 在 atch/#/mm 目 录 下 。 

' net: 网络 相关 代码 ， 实 现 各 种 常见 的 网 络 协 议 。 

+ scripts: 用 于 配置 内 核 的 脚本 文件 。 

+ security: 主要 是 一 个 SELinux 的 模块 。 

“ sound: ALSA、OSS 音 频 设备 的 驱动 核心 代码 和 常用 设备 驱动 。 

-usi 实现 用 于 打包 和 压缩 的 cpio 等 。 


< include: 内 核 API 级 别 头 文件 。 


内 核 一 般 要 做 到 drivers 与 arch 的 软件 架构 分 离 ， 驱 动 中 不 包含 板 级 信息 ， 让 驱动 跨 平 台 。 同 时 内 核 的 通用 部 分 (如 kernel、fs、ipc、net 等 ) 则 与 具体 的 硬件 (arch 和 drivers) 剥离 。 


3.4 “Linux 内 核 的 编译 及 加 载 


3.4.1 Linux 内 核 的 编译 


Linux 驱 动 开 发 者 需要 牢固 地 掌握 Linux 内 核 的 编译 方法 以 为 谋 入 式 系统 构建 可 运行 的 Linux 操 作 系统 映像 。 在 编译 内 核 时 ， 需 要 配置 内 核 ， 可 以 使 用 下 面 命令 中 的 一 个 : 


#make config (基于 文本 的 最 为 传统 的 配置 界面 ， 不 推荐 使 用 ) 
#make menuconfig (基于 文本 菜单 的 配置 界面 ) 

#make xconfig (要 求 QT 被 安装 ) 

#make gconfig (要 求 GTK+ 被 安装 ) 


在 配置 Linux 内 核 所 使 用 的 make config、make menuconfig、make xconfig 和 make gconfig 这 4 种 方式 中 ， 最 值得 推荐 的 是 make menuconfig， 它 不 依赖 于 QT 或 GTK+ ， 且 非常 直观 ， 
对 /home/baohua/develop/linux 中 的 Linux 4.0-rc1 内 核 运行 make ARCH=arm menuconfig 后 的 界面 如 图 3.9 所 示 。 


Linux/arm 4.0.0-rci Kernel Configuration 
Arrow keys navigate the menu. <Enter> selects submenus ---> (or empty submenus ----). 
Highlighted Letters are hotkeys. pressing <Y> includes, <N> excludes, <M> modulartizes features. 
Press <Esc><Esc> to exit, <?> for Help, </> for Search. Legend: [*] built-in [ ] excluded 
<M> module < > module capable 


eneral setup --- 


[*] Enable loadable module support ---> 
-*- Enable the block layer ---> 
System Type ---> 
Bus support ---> 
Kernel Features ---> 
Boot options ---> 
CPU Power Management ---> 
Floating point emulation ---> 
Userspace binary formats ---> 
Power management options ---> 
[*] Networking support ---> 
Device Drivers ---> 
File systems ---> 


L+) 


< Exit > < Help> < Save> < Load > 


A3.9 Linux AARRE 


内 核 配置 包含 的 条 目 相当 多 ，arch/army/configs/xxx_defconfig 文 件 包含 了 许多 电路 板 的 默认 配置 。 只 需要 运行 make ARCH=arm xxx_defconfig 就 可 以 为 xxx 开 发 板 配置 内 核 。 


编译 内 核 和 模块 的 方法 是 : 


make ARCH=arm zImage 
make ARCH=arm modules 


上 述 命令 中 ， 如 果 ARCH=arm 已 经 作为 环境 变量 导出 ， 则 不 再 需要 在 make 命 令 后 书写 该 选项 。 执 行 完 上 述 命令 后 ， 在 源 代码 的 根 目录 下 会 得 到 未 压缩 的 内 核 映像 vmlinux 和 内 核 符号 表 文 件 
System.map， 在 arch/arm/boot/ 目 录 下 会 得 到 压缩 的 内 核 映 像 zmage， 在 内 核 各 对 应 目录 内 得 到 选中 的 内 核 模块 。 


Linux 内 核 的 配置 系统 由 以 下 3 个 部 分 组 成 。 
- Makefile: 分 布 在 Linux 内 核 源 代码 中 ， 定 义 Linux 内 核 的 编译 规则 。 


“ 配置 文件 (Kconfig) : 给 用 户 提供 配置 选择 的 功能 。 


“ 配置 工具 : 包括 配置 命令 解释 器 〈 对 配置 脚本 中 使 用 的 配置 命令 进行 解释 ) 和 配置 用 户 界面 〈 提 供 字 符 界面 和 图 形 界面 ) 。 这 些 配 置 工具 使 用 的 都 是 脚本 语言 ， 如 用 Tcl/TK、Perl 等 。 


使 用 make config、make menuconfig 等 命令 后 ， 会 生成 一 个 .config 配 置 文件 ， 记 录 哪 些 部 分 被 编译 入 内 核 、 哪 些 部 分 被 编译 为 内 核 模块 。 


运行 make menuconfig 等 时 ， 配 置 工具 首先 分 析 与 体系 结构 对 应 的 /arch/xxx/Kconfig 文 件 (xxx 即 为 传 入 的 ARCH 人 参数 ) ，/arch/xxx/Kconfig 文 件 中 除 本 身 包含 一 些 与 体系 结构 相关 的 配置 项 和 配置 
菜单 以 外 ， 还 通过 source 语 句 引入 了 一 系列 Kconfig 文 件 ， 而 这 些 Kconfig 又 可 能 再 次 通过 source 引 入 下 一 层 的 Kconfig， 配 置 工具 依据 Kconfig 包 含 的 菜单 和 条 目 即 可 描绘 出 一 个 如 图 3.9 所 示 的 分 层 结构 。 


3.5 Linux 下 的 C 编 程 特点 


3.5.1 Linux 编 码 风格 


Linux 有 独特 的 编码 风格 ， 在 内 核 源 代码 下 存在 一 个 文件 Documentation/Codingstyle， 进 行 了 比较 详细 的 描述 。 
Linux 程 序 的 命名 习惯 和 Windows 程 序 的 命名 习惯 及 著名 的 匈牙利 命名 法 有 很 大 的 不 同 。 


在 Windows 程 序 中 ， 习 惯 以 如 下 方式 命名 宏 、 变 量 和 函数 : 


#define PI 3.1415926 /* 用 大 写字 母 代表 宏 */ 
int minValue, maxValue; /* 变量 : 第 一 个 单词 全 小 写 ， 其 后 单词 的 第 一 个 字母 大 写 */ 
void SendData (void) ; /* 函数 : 所 有 单词 第 一 个 字母 都 大 写 */ 


这 种 命名 方式 在 程序 员 中 非常 盛行 ， 意 思 表 达 清 晰 且 避 免 了 匈牙利 法 的 腑 肿 ， 单 词 之 间 通 过 首 字母 大 写 来 区 分 。 通 过 第 1 个 单词 的 首 字 母 是 否 大 写 可 以 区 分 名 称 属于 变量 还 是 属于 函数 ， 而 看 到 整 串 的 大 
写字 母 可 以 断定 为 宏 。 实 际 上 ，Windows 的 命名 习惯 并 非 仅 限于 Windows 编 程 ， 许 多 领域 的 程序 开发 都 遵照 此 习惯 。 


但 是 Linux 不 以 这 种 习惯 命名 ， 对 于 上 面 的 一 段 程序 ， 在 Linux 中 它 会 被 命名 为 : 


#define PI 3.1415926 
int min value, max value; 
void send data (void); 


在 上 述 命名 方式 中 ， 下 划 线 大 行 其 道 ， 不 按照 Windows 所 采用 的 用 首 字母 大 写 来 区 分 单词 的 方式 。Linux 的 命名 习惯 与 Windows 命 名 习惯 各 有 干 秋 ， 但 是 既然 本 书 和 本 书 的 读者 立足 于 编写 Linux 程 
序 ， 代 码 风格 理应 与 Linux 开 发 社区 保持 一 致 。 


Linux 的 代码 缩 进 使 用 “TAB”。 


Linux 中 代码 括号 “{” 和 “}” 的 使 


1) 对 于 结构 体 、if/for/while/switch 语 句 ， 


原则 如 下 。 


“{ 不 另 起 一 行 ， 例 如 : 


struct var_data { 
int len; 
char data[0]; 
Me 
if (a = b) { 


ase 
d=a; 

} 

for (i = 0; i < 10; i++) { 
a= ei 
d=a; 


2) 如 果 if、for 循 环 后 只 有 1 行 ， 不 要 加 “{” 和 “}”， 例 如 : 


for (i = 0; i < 10; i++) { 
a= 0 


3) if 和 else 混 用 的 情况 下 ，else 语 句 不 另 起 一 行 ， 例 如 : 


if (x = y) 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


} else if (x > y) { 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


} else { 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


} 


4) 对 于 函数 ，“{” 另 起 一 行 ， 璧 如 : 


int add(int a, int b) 
{ 
return a + b; 


} 


在 switch/case 语 句 方面 ，Linux 建 议 switch 和 case 对 齐 ， 例 如 : 


switch (suffix) { 
case 'G'; 
case 'g': 
mem <<= 30; 
break; 
case 'M': 
case 'm': 
mem <<= 20; 
break; 
case 'K': 
case 'k!: 
mem <<= 10; 
/* fall through */ 
default: 
break; 
} 


内 核 下 的 Documentation/CodingStyle 描 述 了 Linux 内 核对 编码 风格 的 要 求 ， 内 核 下 的 scripts/checkpatch.pl 提 供 了 1 个 检查 代码 风格 的 脚本 。 如 果 使 用 


程序 : 


scripts/checkpatch.pl 检 查 包 含 如 下 代码 块 的 源 


就 会 产生 “WARNING: braces{jare not necessary for single statement blocks” 的 警告 。 


另外 ， 请 注意 代码 中 空格 的 应 用 ， 警 如 “for (iH =0; Si < 110; i++) 中 人 {语句 中 的 “中” 都 是 空格 。 


在 工程 阶段 ， 一 般 可 以 在 SCM 软 件 的 服务 器 端 使 能 pre-commit hook， 自 动 检查 工程 师 提交 的 代码 是 否 符合 Linux 的 编码 风格 ， 如 果 不 符合 ， 则 自动 拦截 。git 的 pre-commit hook 可 以 运行 在 本 地 代 
码 仓库 中 ， 如 Ben Dooks 完 成 的 一 个 版 本 : 


#!/bin/sh 
# 


# pre-commit hook to run check-patch on the output and stop any commits 
# that do not pass. Note, only for git-commit, and not for any of the 


# other scenarios 


# Copyright 2010 Ben Dooks, <ben-linux@fluff.org> 
if git rev-parse --verify HEAD 2>/dev/null >/dev/null 


then 
against=HEAD 
else 


# Initial commit: diff against an empty tree object 
against=4b825dc642cb6eb9a0 60e54b£8d69288fbee4 904 


fi 
git diff --cached $against -- | 


./scripts/checkpatch.pl --no-signoff - 


3.6 工具 链 


在 Linux 的 编程 中 ， 通 常 使 用 GNU 工 具 链 编译 Bootloader、 内 核 和 应 用 程序 。GNU 组 织 维护 了 GCC、GDB、glibc、Binutils 等 ,分 别 见 
于 https://gcc.gnu.org/, https://www.gnu.org/software/gdb/, https://www.gnu.org/software/libc/、 https://www.gnu.org/software/binutils/。 


建立 交叉 工具 链 的 过 程 相当 烦琐 ， 一 般 可 以 通过 类 似 crosstool-ng 这 样 的 工具 来 做 。crosstool-ng 也 采用 了 与 内 核 相似 的 menuconfig 配 置 方法 。 在 官网 http://www.crosstool-ng.org/ 上 下 载 
crosstool-ng 的 源 代码 并 编译 安装 后 ， 运 行 ct-ng menuconfig， 会 出 现 如 图 3.12 的 配置 菜单 。 在 里 面 我 们 可 以 选择 目标 机 处 理 器 型 号 ， 支 持 的 内 核 版 本 号 等 。 


crosstool-NG 


Arrow keys navigate the menu. <Enter> selects submenus --->. Highlighted letters are 
hotkeys. Pressing <Y> includes, <N> excludes, <M> modularizes features. Press 
<Esc><Esc> to exit, <?> for Help, </> for Search. Legend: [*] built-in [ ] excluded 
<M> module < > module capable 


Paths and misc options ---> 
Target options ---> 
Toolchain options ---> 
Operating System ---> 


Binary utilities ---> 
T E compiler 一- 

C-library ---> 

Debug facilities ---> 


Companion libraries ---> 


Load an Alternate Configuration File 
Save an Alternate Configuration File 


图 3.12 ”crosstool-ng 的 配置 菜单 


当然 ， 也 可 以 直接 下 载 第 三 方 编译 好 的 、 开 放 的 、 针 对 目标 处 理 器 的 交叉 工具 链 ， 如 在 http://www.mentor.com/embedded-software/sourcery-tools/sourcery-codebench/editions/lite- 
edition/ 上 可 以 下 载 针对 ARM、MIPS、 高 通 Hexagon、Altera Nios lI|、Intel、AMD64 等 处 理 器 的 工具 链 ， 在 http://www.linaro.org/downloads/ 可 以 下 载 针 对 ARM 的 工具 链 。 


目前 ， 在 ARM Linux 的 开发 中 ， 人 们 趋向 于 使 用 Linaro (http://www.linaro.org/) 工具 链 团队 维护 的 ARM 工 具 链 ， 它 以 每 月 一 次 的 形式 发 布 新 的 版 本 ， 编 译 好 的 可 执行 文件 可 从 网 
址 http://www.linaro.org/downloads/ 下 载 。Linaro 是 ARM Linux 领 域 中 最 著名 最 具 技术 成 就 的 开源 组 织 ， 其 会 员 包括 ARM、Broadcom、Samsung、TI、Qualcomm 等 ， 国 内 的 海 思 、 中 兴 、 全 志和 中 
国 台湾 的 MediaTek 也 是 它 的 会 员 。 


一 个 典型 的 ARM Linux 工 具 链 包含 arm-linux-gnueabihf-gcc (后 续 工 具 省 略 前 缀 ) 、strip、gcc、objdump、Id、gprof、nm、readelf、addr2line 等 。 用 strip 可 以 删除 可 执行 文件 中 的 符号 表 和 调 


试 信息 等 来 实现 缩减 程序 体积 的 目的 。gprof 在 编译 过 程 中 在 函数 入 口 处 插入 计数 器 以 收集 每 个 函数 的 被 调用 情况 和 被 调用 次 数 ， 检 查 程序 计数 器 并 在 分 析 时 找 出 与 程序 计数 器 对 应 的 函数 来 统计 函数 占用 的 


时 间 。objdump 是 反 汇 编 工 具 。nm 则 用 于 显示 关于 对 象 文件 、 可 执行 文件 以 及 对 象 文 件 库 里 的 符号 信息 。 其 中 ， 前 缀 中 的 “hf” 显 示 该 工具 链 是 完全 的 硬 浮 点 ， 由 于 目前 主流 的 ARM 芯 片 都 自 带 VFP 或 者 
NEON 等 浮 点 处 理 单元 (FPU) ， 所 以 对 硬 浮 点 的 需求 就 更 加 强烈 。Linux 的 浮 点 处 理 可 以 采用 完全 软 浮 点 ， 也 可 以 采用 与 软 浮 点 兼容 ， 但 是 使 用 FPU 硬 件 的 softfp， 以 及 完全 硬 浮 点 。 具 体 的 
ABI (Application Binary Interface， 应 用 程序 二 进 制 接口 ) 通过 -mfloat-abi= 参 数 指定 ，3 种 情况 下 的 参数 分 别 是 -mfloat-abi=soft/softfp/hard。 


在 以 前 ， 主 流 的 工具 链 采 用 “与 软 浮 点 兼容 ， 但 是 使 用 FPU 硬 件 的 softfp”。softfp 使 用 了 硬件 的 FPU， 但 是 函数 的 参数 仍然 使 用 整 型 寄存 器 来 传递 ， 完 全 硬 浮 点 则 直接 使 用 FPU 的 寄存 器 传递 参数 。 
下 面 一 段 程序 : 


float mul (float a, float b) 
{ 


return a * b; 


} 


void main (void) 


printf£("1.1 * 2.3 = %f\n", mul(1.1, 2.3)); 


} 


对 其 使 用 arm-linux-gnueabihf-gcc 编 译 并 反 汇 编 的 结果 是 : 


000 08394 <mul>: 


8394: 
8396: 
8398: 


b480 push {r7} 
b083 sub sp, #12 
af00 add r7, sp, #0 


839a: ed87 Oa0lvstrsO, [r7, #4] (null)839e: edc7 0a00vstrs1， [r7] 


83ba: 


: ed97 7a01 vidr s14, [r7, #4] (null) 
: edd7 7a00 vidr s15, [r7] 

: ee67 7a27 vmul.f32 s15, s14, s15 
: eeb0 0a67 vmov.f32 s0, s15 


: £107 070c add.w r7, r7, #12 
: 46bd mov sp, r7 
: bc80 pop {r7} 


4770 bxlr 


0000 83bc <main>: 


83bc: 
83be: 


b580 push {r7, lr} 
af00 add r7, sp, 


#0 
83c0: ed9f 0a09vldrs0, [pc, #36] (null); 83e8 <main+0x2c>83c4: eddf Oa09vldrs1, [pc, #36] (null); 83ec <main+0x30> 


83c8: 
8360: 
83d0: 
83d4: 
83d8: 
83dc: 
83e0: 
83e4: 
83e6: 


f7ff ffe4 b8394 <mul> 

eef0 7a40 vmov.f£32 s15, s0 

eeb7 7ae7 vcvt.f64.f32 d7, s15 
£248 4044 movw r0, #33860 ; 0x8444 
£2c0 0000 movt r0, #0 

ec53 2b17 vmov r2, r3, d7 


f7ff ef82 blx 82e8 <_init+0x20> 
bd80 pop {r7, pc} 
bf00 nop 


而 使 用 没有 “hf” 前缀 的 arm-linux-gnueabi-gcc 编 译 并 反 汇 编 的 结果 则 为 


000 0838c <mul>: 


838c: 


b480 push {r7} 


838e: b083 sub sp, #12 
8390: af00 add r7, sp, #0 
8392: 6078 str r0, [r7, #4]8394: 6039 str rl, [r7, #0]8396: ed97 7a01 vidr s14, [r7, #4] (null) 839a: edd7 7a00 vidr s15, [r7] 
839e: ee67 7a27 vmul.f32 s15, s14, s15 
83a2: ee17 3a90 vmov r3, s15 


83a6: 4618 mov r0, r3 
83a8: f107 070c add.w r7, r7, #12 
83ac: 46bd mov sp, r7 
83ae: bc80 pop {r7} 
83b0: 4770 bxlr 
83b2: bf00 nop 
000 083b4 <main>: 
83b4: b580 push {r7, lr} 
83b6: af00 add r7, sp, #0 
83b8: 4808 ldr r0, [pc, #32] ; (83dc <main+0x28>)83ba: 4909 ldr rl, [pc, #36] ; (83e0 <main+0x2c>) 


83bc: f7ff ffe6 bl 838c <mul> 

83c0: ee07 0a90 vmov s15, r0 

83c4: eeb7 7ae7 vcvt.f64.f32 d7, s15 
83c8: £248 4038 movwr0, #33848; 0x8438 
83cc: f2c0 0000 movtr0, #0 

83d0: ec53 2b17 vmovr2, r3, d7 

83d4: f7ff ef84 blx 82e0 <_init+0x20> 
83d8: bd80 pop {r7, pc} 

83da: bf00 nop 


关注 其 中 加 粗 的 行 ， 可 以 看 出 前 面 的 汇编 使 用 s0 和 s1 传 递 参 数 ， 后 者 则 仍然 使 用 ARM 的 r0 和 r1。 测 试 显示 一 个 含有 浮 点 运算 的 程序 若 使 用 hard ABI 会 比 softfp ABI 快 5%~409%6， 如 果 浮 点 负载 重 ， 结 果 
可 能 会 快 200% 以 上 。 


37 ”实验 室 建 设 


在 公司 或 学 校 的 实验 室 中 ，PC 的 性 能 一 般 来 说 不 会 太 高 ， 用 PC 来 编译 Linux 内 核 和 模块 的 速度 总 会 受 限 。 相 反 ， 服 务 器 的 资源 相对 比较 充分 ，CPU 以 及 磁盘 性 能 都 较 高 ， 因 此 在 服务 器 上 进行 内 核 、 驱 
动 及 应 用 程序 的 编译 开发 将 更 加 快捷 ， 而 且 使 用 服务 器 更 有 利于 统一 管理 实验 室内 的 所 有 开发 者 。 图 3.13 所 示 为 一 种 常见 的 小 型 Linux 实 验 室 环境 。 


在 Linux 服 务 器 上 启动 了 Samba、NFS 和 sshd 进 程 ， 各 工程 师 在 自己 的 Linux 或 Windows 客 户 机 上 通过 SSH 用 自己 的 用 户 名 和 密码 登录 服务 器 ， 便 可 以 使 用 服务 器 上 的 GCC、GDB 等 软件 。 


在 Windows 下 ， 常 用 的 SSH 客 户 端 软件 是 SSH Secure Shell， 而 配套 的 SSH Secure File Transfer 则 可 用 在 客户 端 和 服务 器 端 复制 文件 。 在 Linux 下 可 以 通过 在 终端 下 运行 ssh 命 令 连 接 服务 器 ， 并 通过 
scp 命 令 在 服务 器 和 本 地 之 间 复 制 文件 。 


Linux 


GDB, GCC, Linux 
Samba. sshd mount NFS 
NFS: 存放 目标 板 4 
服务 器 应 用 程序 sf 
a 


==) 
Windows, 


SSH 


Windows, 
SSH 


图 3.13 ”小 型 Linux 实 验 室 环境 


目标 板 、 服 务 器 和 客户 端 全 部 通过 交换 机 连接 ， 同 时 客户 端 连接 目标 板 的 串口 作为 控制 台 。 在 调试 Linux 应 用 程序 时 ， 为 了 方便 在 目标 板 和 开发 环境 间 共 享 文 件 ， 有 时 候 可 以 使 用 NFS 文 件 系统 。 编 写 完 
成 的 应 用 程序 或 内 核 模 块 可 直接 存放 在 服务 器 的 NFS 服 务 目录 内 ， 而 该 目录 可 被 目标 板 上 的 Linux 系 统 装载 到 本 身 的 一 个 目录 内 。 


3.8 BOTA 


在 嵌入 式 Linux 的 调试 过 程 中 ， 目 标 机 往往 会 提供 给 主机 一 个 串口 控制 台 ， 驱 动工 程 师 在 80% 以 上 的 情况 下 都 是 通过 串口 与 目标 机 通信 。 因 此 ， 好 用 的 串口 工具 将 大 大 提高 工程 师 的 生产 效率 。 


在 Windows 环 境 下 ， 其 附件 内 自 带 了 超级 终端 ， 超 级 终端 包括 了 对 VT100、ANSI 等 终端 仿真 功能 以 及 对 xmodem、ymodem、zmodem 等 协议 的 支持 。 


在 调试 过 程 中 ， 经 常 需要 保存 串口 打印 信息 的 历史 记录 ， 这 时 候 可 以 使 用 “传送 ”菜单 下 的 “捕获 文字 ”功能 来 实现 。 


SecureCRT 是 比 超级 终端 更 强大 


更 方便 的 工具 ， 它 将 SSH 的 安全 登录 、 数 据 传送 性 能 和 Windows 终 端 仿真 提供 的 可 靠 性 、 可 用 性 和 可 配置 性 结合 在 一 起 。 鉴 于 SecureCRT; 


备 比 超级 终端 更 强大 


的 功能 ， 建 议 直接 


SecureCRT 替 代 超 级 终端 。 


在 开发 过 程 中 ， 为 执行 自动 化 的 串口 发 送 操作 ， 可 以 使 用 SecureCRT 的 VBScript 脚 本 功能 ， 让 其 运行 一 段 脚本 ， 自 动 捕获 接收 到 的 串 
SecureCRT 等 待 至 接收 到 “CCC” 字 符 串 后 通过 xmodem 协 议 发 送 file.bin 文 件 ， 接 着 ， 当 接收 到 “y/n” 时 ,选择 “y”。 


信息 并 向 串口 上 发 送 指定 的 数据 或 文件 。 下 面 的 脚本 设置 了 


#$language = "VBScript" 
#Sinterface = "1.0" 
Sub main 
Dir = "d:\bachua\" 
' turn on synchronous mode so we don't miss any data 
crt.Screen.Synchronous = True 
"wait "CCC" string then send file 
crt.Screen.WaitForString "CCC" 
crt.fileTransfer.SendxXmodem Dir & "file.bin" 
‘wait "y/n" string then send "y" 
crt.Screen.WaitForString "y/n" 
crt.Screen.Send "y" & VbCr 
End Sub 


另外 ， 在 Windows 环 境 下 ， 也 可 以 选 


PuTTY 工 具 ， 该 工 


非常 小 巧 ， 而 功能 很 强大 ， 可 支持 串 


、Telnet 和 SSH 等 ， 其 官方 网 址 为 


Minicom 是 Linux 系 统 下 常 


的 类 似 于 Windows 下 超级 终端 的 工具 ， 当 要 发 送 文件 或 设置 


时 ， 需 先 按 下 “Ctrl+A” 键 ， 紧 接着 按 下 “Z” 键 激活 菜单 ， 如 图 3.14 所 示 。 


elcome to minicom 2.66.6 
B Minicom Command Summary 


Commands can be called by CTRL-A <key> 


Main 


Dialing directory.. 
send files. .....+e 
comm Parameters.... 
Capture onvoff..... 
send break......... 
Terminal settings.. 
lineWrap on/off.... 


Functions 


run script (Go).... 
Receive files...... 
Add linefeed... 
Hangup...... stoat 
initialize Modem. 
run Kermit......... 
local Echo onoff.. 


Other Functions 


GICar SCrCEN: neonki 
cOnfigure Minicom.. 
Suspend minicom.... 
exit and reset..... 
Quit with no reset. 
Cursor key mode.... 
Help screen........ 
SscroeUlenacki. ccc 


Select function or press Enter for none. _ 
Written by Miquel van Smoorenburg 1991-1995 
Some additions by Jukka Lahtinen 1997-26808 
i18n by Arnaldo Carvalho de Melo 1998 


CTRL-A Z for help i 


38466 8N1 i 


NOR 1 Minicom 2.88.0 1 VT162 i Online 88:88 


图 3.14 Minicom 


除了 Minicom 以 外 ， 在 Linux 系 统 下 ， 也 可 以 直接 使 


C-Kermit。 运 行 kermit 命 令 即 可 启动 C-Kermit。 在 使 


C-Kermit 连 接 目标 板 之 前 ， 需 先进 行 


设置 ， 如 下 所 示 : 


set line /dev/ttys0 
set speed 115200 

set carrier-watch off 
set handshake none 
set flow-control none 
robust 

set file type bin 
set file name lit 

set rec pack 1000 

set send pack 1000 
set window 5 


之 后 ， 使 用 以 下 命令 就 可 以 将 kermit 连 接 到 目标 板 : 
connect 
在 kermit 的 使 用 过 程 中 ， 会 涉及 串口 控制 台 和 kermit 功 能 模式 之 间 的 切换 ， 从 串口 控制 台 切 换 到 kermit 的 方法 是 按 下 “Ctrl+\” 键 ， 然 后 再 按 下 “C” 键 。 


假设 我 们 在 串口 控制 台 上 敲 入 命令 ， 使 得 目标 板 进入 文件 接收 等 待 状态 ， 此 后 可 按 下 “Ctrl+\” 键 ， 


T'e 命令 ， 将 进入 串口 控制 台 。 


按 “C” 键 , 切换 到 kermit， 运行 “send/file_ name” 命 令 传输 文件 。 文 件 传输 结束 后 ， 再 运 


本 章 主要 讲解 了 Linux 内 核 和 Linux 内 核 编程 的 基础 知识 ， 为 读者 在 进行 Linux 驱 动 开发 打下 软件 基础 。 


在 Linux 内 核 方面 ， 主 要 介绍 了 Linux 内 核 的 发 展 史 、 组 成 、 特 点 、 源 代码 结构 、 内 核 编译 方法 及 内 核 引 导 过 程 。 


由 于 Linux 驱 动 编程 本 质 属于 内 核 编程 ， 
以 及 Linux 所 使 有 


因此 掌握 内 核 编程 的 基础 知识 显得 尤为 重要 。 本 章 在 这 方面 主要 讲解 了 在 内 核 中 新 增 程序 、 目 录 和 编写 Kconfig 和 Makefile 的 方法 ， 并 分 析 了 Linux 下 C 编 程 习惯 
的 GNU C 针 对 标准 C 的 扩展 语法 。 


SAB ”Linux 内 核 模 块 


本 章 导读 


Linux 设 备 驱 动 会 以 内 核 模块 的 形式 出 现 ， 


因此 ， 学 会 编写 Linux 内 核 模块 编程 是 学 习 Linux 设 备 驱动 的 先决 条 件 。 


4.1~4.2 节 讲解 了 Linux 内 核 模块 的 概念 和 结构 ，4.3~4.8 节 对 Linux 内 核 模块 的 各 个 组 成 部 分 进行 了 展现 。4.1~4.2 节 与 4.3~4.8 节 是 整体 与 部 分 的 关系 。 


4.9 节 说 明了 独立 存在 的 Linux 内 核 模 块 的 Makefile 文 件 编写 方法 和 模块 的 编译 方法 。 


4.10 节 讨论 了 使 


模块 “ 绕 开 ”GPL 的 问题 。 


4.1 Linux 内 核 模 块 简介 


Linux 内 核 的 整体 架构 本 就 非常 庞大 ， 其 包含 的 组 件 也 非常 多 。 而 我 们 怎样 把 需要 的 部 分 都 包含 在 内 核 中 呢 ? 


一 种 方法 是 把 所 有 需要 的 功能 都 编译 到 Linux 内 核 中 。 这 会 导致 两 个 问题 ， 一 是 生成 的 内 核 会 很 大 ， 二 是 如 果 我 们 要 在 现 有 的 内 核 中 新 增 或 删除 功能 ， 将 不 得 不 重新 编译 内 核 。 


有 没有 另 一 种 机 制 可 使 得 编译 出 的 内 核 本 身 并 不 需 


包含 所 有 功能 ， 而 在 这 些 功 能 需要 被 使 


的 时 候 ， 其 对 应 的 代码 被 动态 地 加 载 到 内 核 中 呢 ? 


Linux 提 供 了 这 样 的 机 制 ， 这 种 机 制 被 称 为 模块 (Module) 。 模 块 


“ 模块 本 身 不 被 编译 入 内 核 映像 ， 从 而 控制 了 内 核 的 大 小 。 
“ 模块 一 旦 被 加 载 ， 它 就 和 内 核 中 的 其 他 部 分 完全 一 样 。 


为 了 使 读者 初步 建立 对 模块 的 感性 认识 ， 我 们 先 来 看 一 个 最 简单 的 内 核 模 块 “Hello World”， 如 代码 清单 4.1 所 示 。 


代码 清单 4.1 一 个 最 简单 的 Linux 内 核 模块 

1/* 

2 * a simple kernel module: hello 

* Copyright (C) 2014 Barry Song (baohua@kernel.org) 
: : Licensed under GPLv2 or later. 

7 / 


9#include <linux/init.h> 

10#include <linux/module.h> 

1I 

12static int _ init hello_init (void) 

13{ 

14 printk(KERN_INFO "Hello World enter\n") ; 
15 return 0; 

16} 


17module_init (hello_init); 

eee void _ exit hello exit (void) 

2 printk (KERN INFO "Hello World exit\n "); 
Zanodule exit (hello exit); 


25MODULE_AUTHOR ("Barry Song <21cnbao@gmail.com>"); 
26MODULE LICENSE ("GPL v2"); 

27MODULE_DESCRIPTION ("A simple Hello World Module"); 
28MODULE_ALIAS("a simplest module"); 


这 个 最 简单 的 内 核 模块 只 包含 内 核 模块 加 载 函数 、 印 载 函 数 和 对 GPL v2 许可 权限 的 声明 以 及 一 些 描述 信息 ， 位 于 本 书 配套 Ubuntu 的 /home/baohua/develop/training/kernel/drivers/hello 目 录 。 编 
译 它 会 产生 hello.ko 目 标 文件 ， 通 过 “insmod./hello.ko” 命令 可 以 加 载 它 ， 通 过 “rmmod hello” 命令 可 以 卸载 它 ， 加 载 时 输出 “Hello World enter” , mAH “Hello World exit” . 


内 核 模 块 中 用 于 输出 的 函数 是 内 核 空间 的 printk () 而 不 是 
在 Linux 驱 动 的 调试 章节 中 将 会 详细 讲解 。 


户 空间 的 printf () ，printk () 的 


法 和 printf () 基本 相似 ， 但 前 者 可 定义 输出 级 别 。printk () 可 作为 一 种 最 基本 的 内 核 调试 手段 ， 


在 Linux 中 ， 使 用 smod 命 令 可 以 获得 系统 中 已 加 载 的 所 有 模块 以 及 模块 间 的 依赖 关系 ， 例 如 : 
Module Size Used by 

hello 9 472 0 

nls_iso8859 1 12 032 1 

nls_cp437 ` 13 696 1 

vfat 18 816 1 

fat 57 376 1 vfat 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


Ismod 命 令 实 际 上 是 读 取 并 分 析 “/proc/modules” 文 件 ， 与 上 述 lsmod 命 令 结果 对 应 的 “/proc/modules” 文 件 如 下 : 


$ cat /proc/modules 

hello 12393 0 - Live 0xe67a2000 (OF) 
nls utf8 12493 1 - Live Oxe678e000 
isofs 39596 1 - Live 0xe677£000 


vboxsf 42561 2 - Live 0xe6767000 (OF)… 


内 核 中 已 加 载 模块 的 信息 也 存在 于 /sys/module 目 录 下 ， 加 载 hello.ko 后 ， 内 核 中 将 包含 /sys/module/hello 
行 “tree-a” 可 得 到 如 下 目录 树 : 


录 下 又 有 一 个 refcnt 文 件 和 一 个 sections 目 录 ， 在 /sys/module/hello 目 录 下 运 


root@barry-VirtualBox: /sys/module/hello# tree -a 
è coresize holders initsize initstate | 
3 directories, 15 files 


sections -一 一 .exit.text | | 一 一 .gnu.linkonce.this_ 


refcnt 


-note.gnu.build-id | 


notes 


modprobe 命 令 比 insmod 命 令 要 强大 ， 它 在 加 载 某 模块 时 ， 会 同时 加 载 该 模块 所 依赖 的 其 他 模块 。 使 用 modprobe 命 令 加 载 的 模块 若 以 “modprobe-r filename” ARER, RINE ARRAY 


模块 。 模 块 之 间 的 依赖 关系 存放 在 根 文件 系统 的 /lib/modules/<kernel-version>/modules.dep 文 件 中 ， 实 际 上 是 在 整体 编译 内 核 的 时 候 由 depmod 工 具 生 成 的 ， 它 的 格式 非常 简单 : 


kernel/lib/cpu-notifier-error-inject.ko: kernel/lib/notifier-error-inject.ko 
kernel/lib/pm-notifier-error-inject.ko: kernel/lib/notifier-error-inject.ko 
kernel/lib/lru cache.ko: 

kernel/lib/cordic.ko: 

kernel/lib/rbtree_test.ko: 

kernel/lib/interval_tree_test.ko: 

updates/dkms/vboxvideo.ko: kernel/drivers/gpu/drm/drm. ko 


使 用 modinfo< 模 块 名 > 命令 可 以 获得 模块 的 信息 ， 包 括 模 块 作 者 、 模 块 的 说 明 、 模 块 所 支持 的 参数 以 及 vermagic: 


# modinfo hello.ko 


filename: /home/baohua/develop/training/kernel/drivers/hello/hello.ko 
alias: a simplest module 

description: A simple Hello World Module 

license: GPL v2 

author: Barry Song <21cnbao@gmail.com> 

depends: 

vermagic: 4.0.0-rc1 SMP mod unload 686 


4.2 Linux 内 核 模 块 程序 结构 


一 个 Linux 内 核 模 块 主要 由 如 下 几 个 部 分 组 成 。 


(1) 模块 加 载 函数 


当 通 过 insmod 或 modprobe 命 令 加 载 内 核 模 块 时 ， 模 块 的 加 载 函数 会 自动 被 内 核 执行 ， 完 成 本 模块 的 相关 初始 化 工作 。 


(2) 模块 卸载 函数 


当 通 过 rmmod 命 令 卸 载 某 模块 时 ， 模 块 的 卸载 函数 会 自动 被 内 核 执行 ， 完 成 与 模块 卸载 函数 相反 的 功能 。 


(3) 模块 许可 证 声明 


许可 证 (LICENSE) 声明 描述 内 核 模块 的 许可 权限 ， 如 果 不 声明 LICENSE， 模 块 被 加 载 时 ， 将 收 到 内 核 被 污染 (Kernel Tainted) 的 警告 。 


在 Linux 内 核 模块 领域 ， 可 接受 的 LICENSE 包 括 “GPL” 、 “GPL v2” 、 “GPL and additional rights” ~ “Dual BSD/GPL”、“Dual MPL/GPL" #0 "Proprietary" (关于 模块 是 否 可 以 采用 非 GPL 
许可 权 ， 如 “Proprietary”， 这 个 在 学 术 界 和 法 律 界 都 有 争议 ) 。 


大 多 数 情况 下 ， 内 核 模 块 应 遵循 GPL 兼容 许可 权 。Linux 内 核 模块 最 常见 的 是 以 MODULE LICENSE (“GPL v2”) 语句 声明 模块 采用 GPL v2。 


(4) 模块 参数 (可 选 ) 


模块 参数 是 模块 被 加 载 的 时 候 可 以 传递 给 它 的 值 ， 它 本 身 对 应 模块 内 部 的 全 局 变量 。 


(5) 模块 导出 符号 (可 选 ) 


内 核 模块 可 以 导出 的 符号 (symbol， 对 应 于 函数 或 变量 ) ， 若 导出 ， 其 他 模块 则 可 以 使 用 本 模块 中 的 变量 或 函数 。 


(6) 模块 作者 等 信息 声明 (可 选 ) 


43 RMA 


Linux 内 核 模 块 加 载 函数 一 般 以 _init 标 识 声明 ， 典 型 的 模块 加 载 函 数 的 形式 如 代码 清单 4.2 所 示 。 


代码 清单 4.2 ”内 核 模块 加 载 函数 


1 static int _ _init initialization_function (void) 
2{ 
3 /* 初始 化 代码 */ 
4 
5 


} 
module_init (initialization function); 


模块 加 载 函数 以 “module_init (函数 名 ) ”的 形式 被 指定 。 它 返回 整 型 值 ， 若 初始 化 成 功 ， 应 返回 0。 而 在 初始 化 失败 时 ， 应 该 返回 错误 编码 。 在 Linux 内 核 里 ， 错 误 编码 是 一 个 接近 于 0 的 负 值 ， 在 
<linux/errno.h> 中 定义 ， 包 含 -ENODEV、-ENOMEM 之 类 的 符号 值 。 总 是 返回 相应 的 错误 编码 是 种 非常 好 的 习惯 ， 因 为 只 有 这 样 ， 用 户 程序 才 可 以 利用 perror 等 方法 把 它们 转换 成 有 意义 的 错误 信息 字符 


d 
申 。 


在 Linux 内 核 中 ， 可 以 使 用 request_module (const char*fmt, ...) 函数 加 载 内 核 模块 ， 驱 动 开发 人 员 可 以 通过 调用 下 列 代码 : 


request_module (module_name) ; 


灵活 地 加 载 其 他 内 核 模块 。 


在 Linux 中 ， 所 有 标识 为 _init 的 函数 如 果 直 接 编译 进入 内 核 ， 成 为 内 核 镜 像 的 一 部 分 ， 在 连接 的 时 候 都 会 放 在 .init.text 这 个 区 段 内 。 


#define = _init _ _attribute__ ((_ _section _ (".init.text"))) 


所 有 的 _init 函 数 在 区 段 .initcall.init 中 还 保存 了 一 份 函数 指针 ， 在 初始 化 时 内 核 会 通过 这 些 函 数 指针 调用 这 些 _init 函 数 ， 并 在 初始 化 完成 后 ， 释 放 init 区 段 (包括 .init.text、.initcall.init 等 ) 的 内 存 。 


除了 函数 以 外 ， 数 据 也 可 以 被 定义 为 _initdata， 对 于 只 是 初始 化 阶段 需要 的 数据 ， 内 核 在 初始 化 完 后 ， 也 可 以 释放 它们 占用 的 内 存 。 例 如 ， 下 面 的 代码 将 hello_data 定 义 为 _initdata: 


static int hello data __initdata = 1; 

static int _ init hello _init (void) 

{ 
printk (KERN_INFO "Hello, world $d\n", hello_data); 
return 0; 

} 

module init (hello init); 

static void _ exit hello exit (void) 

{ 
printk (KERN_INFO "Goodbye, world\n") ; 


module_exit (hello_exit); 


44 模块 卸载 函数 


Linux 内 核 模 块 加 载 函数 一 般 以 _exit 标 识 声明 ， 典 型 的 模块 卸载 函数 的 形式 如 代码 清单 4.3 所 示 。 


代码 清单 4.3 ”内 核 模块 印 载 函数 


1 static void _ exit cleanup_function (void) 
2{ 

3 /* 释放 代码 */ 
4 
5 


$ 
module exit (cleanup_function) ; 


RENE 


BA 


数 在 模块 卸载 的 时 候 执行 ， 而 不 返回 任何 值 ， 且 必须 以 “module_exit (函数 名 ) ”的 形式 来 指定 。 通 常 来 阅 ， 模 块 卸载 函数 要 完成 与 模块 加 载 函数 相反 的 功能 。 


我 们 用 _exit 来 修饰 模块 印 载 函数 ， 可 以 告诉 内 核 如 果 相 关 的 模块 被 直接 编译 进 内 核 ( 即 built-in) ， 则 cleanup_function () 函数 会 被 省 略 ， 直 接 不 链 进 最 后 的 镜像 。 既 然 模块 被 内 置 了 ， 就 不 可 能 御 
载 它 了 ， 名 载 函数 也 就 没有 存在 的 必要 了 。 除 了 函数 以 外 ， 只 是 退出 阶段 采用 的 数据 也 可 以 用 _exitdata 来 形容 。 


45 ”模块 参数 


我 们 可 以 用 “module_param (参数 名 ， 参 数 类 型 ， 参 数 读 / 写 权 限 ) ”为 模块 定义 一 个 参数 ， 例 如 下 列 代 码 定义 了 1 个 整 型 参数 和 1 个 字符 指针 参数 : 


static char *book name = "dissecting Linux Device Driver"; 
module param (book name, charp, S IRUGO); 

static int book_num = 4000; T 

module_param(book_num, int, S_IRUGO); 


在 装载 内 核 模块 时 ， 用 户 可 以 向 模块 传递 参数 ， 形 式 为 “insmode (modprobe) 模块 名 参数 名 = 参数 值 ”， 如 果 不 传递 ， 参 数 将 使 用 模块 内 定义 的 缺 省 值 。 如 果 模 块 被 内 置 ， 就 无 法 nsmod 了 ,但 
是 bootloader 可 以 通过 在 bootargs 里 设置 “模块 名 .参数 名 = 值 ”的 形式 给 该 内 置 的 模块 传递 参数 。 


参数 类 型 可 以 是 byte、short、ushort、int、uint、long、ulong、charp (字符 指针 ) 、bool 或 invbool (布尔 的 反 ) ， 在 模块 被 编译 时 会 将 module_param 中 声明 的 类 型 与 变量 定义 的 类 型 进行 比 
较 ， 判 断 是 否 一 致 。 


除 此 之 外 ， 模 块 也 可 以 拥有 参数 数组 ， 形 式 为 “module_param_array (数组 名 ， 数 组 类 型 ， 数 组 长 ， 参 数 读 / 写 权 限 ) ”。 


模块 被 加 载 后 ， 在 /sys/module/ 目 录 下 将 出 现 以 此 模块 名 命名 的 目录 。 当 “参数 读 / 写 权限 ”为 0 时 ， 表 示 此 参数 不 存在 sysfs 文 件 系统 下 对 应 的 文件 节点 ， 如 果 此 模块 存在 “参数 读 / 写 权限 ”不 为 0 的 命 
令 行 参数 ， 在 此 模块 的 目录 下 还 将 出 现 parameters 目 录 ， 其 中 包含 一 系列 以 参数 名 命名 的 文件 节点 ， 这 些 文件 的 权限 值 就 是 传 入 module_param () 的 “参数 读 / 写 权限 ”， 而 文件 的 内 容 为 参数 的 值 。 


运行 insmod 或 modprobe 命 令 时 ， 应 使 用 逗号 分 隔 输 入 的 数组 元 素 。 


现在 我 们 定义 一 个 包含 两 个 参数 的 模块 (如 代码 清单 44， 位 于 本 书 配套 源 代码 /kernel/drivers/param 目 录 下 ) ， 并 观察 模块 加 载 时 被 传递 参数 和 不 传递 参数 时 的 输出 。 


代码 清单 4.4， 带 参数 的 内 核 模块 


1 #include <linux/init.h> 

2 #include <linux/module.h> 

3 

4 static char *book_name = "dissecting Linux Device Driver"; 
5 module_param(book_name, charp, S_IRUGO); 

6 


7 static int book_num = 4000; 
8 module_param(book_num, int, S_TRUGO); 
9 


10 static int _ init book init (void) 


12 printk (KERN INFO "book name:%s\n", book_name) ; 
13 printk(KERN_INFO "book num:%d\n", book num); 
14 return 0; 

15 } 


16 module_init (book_init); 

rr static void _ exit book_exit (void) 

i i printk (KERN_INFO "book module exit\n "); 
22 riesi (book exit); 


24 MODULE AUTHOR("Barry Song <baohua@kernel.org>") ; 

25 MODULE_LICENSE ("GPL v2"); 

26 MODULE DESCRIPTION ("A simple Module for testing module params"); 
27 MODULE_VERSION ("V1.0") 7 


对 上 述 模块 运行 “insmod book.ko” 命 令 加 载 ， 相 应 输出 都 为 模块 内 的 默认 值 ， 通 过 查看 “/var/log/messages” 日 志文 件 可 以 看 到 内 核 的 输出 : 


# tail -n 2 /var/log/messages 
Jul 2 01:03:10 localhost kernel: 


Jul 2 01:03:10 localhost kernel: book num:4000 


<6> book name:dissecting Linux Device Driver 


户 运 行 “insmod book.ko book_name='GoodBook'book_num=5000” 命 令 时 ， 输 出 的 是 


户 传递 的 参数 : 


# tail -n 2 /var/log/messages 
Jul 2 01:06:21 localhost kernel: 
Jul 2 01:06:21 localhost kernel: 


<6> book name:GoodBook 
book num:5000 


另外 ， 在 /sys 


录 下 ， 也 可 以 看 到 book 模 块 的 参数 : 


barry@barry-VirtualBox: /sys/module/book/parameters$ tree 
.| 一 book_name '—— book_num 


并 且 我 们 可 以 通过 “cat book name” FH “cat book num” 查看 它们 的 值 。 


46 导出 符号 


Linux 的 “/proc/kallsyms” 文 件 对 应 着 内 核 符号 表 ， 它 记录 了 符号 以 及 符号 所 在 的 内 存 地 址 。 


模块 可 以 使 


如 下 宏 导 出 符号 到 内 核 符号 表 中 : 


EXPORT_SYMBOL (符号 名 ) ; 
EXPORT_SYMBOL GPL (符号 名 ) 7 


导出 的 符号 可 以 被 其 他 模块 使 用 ， 只 需 使 用 前 声明 一 下 即 可 。EXPORT SYMBOL GPL () 只 适 


代码 清单 4.5 “内核 模块 中 的 符号 导出 


于 包含 GPL 许可 权 的 模块 。 代 码 清单 4.5 给 出 了 一 个 导出 整数 加 、 减 运算 函数 符号 的 内 核 模块 的 例子 。 


#include <linux/init.h> 
#include <linux/module.h> 


int add_integar(int a, int b) 
{ 


return a + b; 


to am wm 


EXPORT_SYMBOL_GPL(add_integar) ; 


10 int sub_integar(int a, int b) 
11 { 

12 return a - b; 

1f 

14 EXPORT_SYMBOL_GPL(sub_integar) ; 
15 


16 MODULE_LICENSE ("GPL v2"); 


从 “/proc/kallsyms” 文 件 中 找 出 add_integar、sub_integar 的 相关 信息 : 


# grep integar /proc/kallsyms 


e679402c r _ksymtab sub integar [export_symb] 
e679403c r _ kstrtab sub integar [export_symb] 
e6794038 r _ kcrctab sub integar [export_symb] 
26794024 r _ ksymtab add integar [export_symb] 
e6794048 r _ kstrtab_add_integar [export_symb] 
26794034 r _ kcrctab add integar [export symb] 
e6793000 t add_integar [export_symb] 

e6793010 t sub_integar [export_symb] 


4.7 ”模块 声明 与 描述 


在 Linux 内 核 模块 中 ,我 们 可 以 F 
别名 ,例如 : 


MODULE AUTHOR、MODULE_DESCRIPTION、 


MODULE VERSION MODULE DEVICE TABLE、 


MODULE_ALIAS 分 别 声明 模块 的 作者 、 


描述 、 版 本 、 设 备 表 和 


MODULE AUTHOR (author); 

MODULE DESCRIPTION (description) 7 
MODULE VERSION (version string) ; 
MODULE DEVICE TABLE (table info) ; 
MODULE _ALIAS (alternate_name) ; 


对 于 USB、PCI 等 设备 驱动 ， 通 常会 创建 一 个 MODULE_DEVICE_TABLE， 以 表明 该 驱动 模块 所 支持 的 设备 ， 


代码 清单 4.6 ”驱动 所 支持 的 设备 列表 


如 代码 清单 4.6 所 示 。 


/* table of devices that work with this driver */ 
static struct usb _ device id skel table [] = { 
{ USB_DEVICE(USB_SKEL VENDOR_ID, 
USB SKEL PRODUCT ID) }, 
{ } /* terminating enttry */ 
hi 


SBIDTBWNE 


MODULE DEVICE TABLE (usb, skel_table); 


此 时 ， 并 不 需要 读者 理解 MODULE_DEVICE_TABLE 的 作用 ， 后 续 相 关 章 节 会 


4.8 模块 的 使 用 计数 


有 详细 介绍 。 


Linux 2.4 内 核 中 ， 模 块 自身 通过 MOD INC_USE COUNT、MOD_DEC_USE_COUNT 宏 来 管理 自己 被 使 用 的 计数 。 


Linux 2.6 以 后 的 内 核 提供 了 模块 计数 管理 接口 try module get (&module) 和 module_put (&module) ， 从 而 取代 Linux 2.4 内 核 中 的 模块 使 


理 ， 而 且 模 块 计数 管理 还 考虑 了 SMP 与 PREEMPT 机 制 的 影响 。 


int try module get (struct module *module) ; 


的 模块 没有 被 加 载 或 正在 被 扼 载 中 。 


该 函数 用 于 增加 模块 使 用 计数 ; 若 返 回 为 0， 表 示 调 用 失败 ， 希 望 使 


void module put (struct module *module) ; 


该 函数 用 于 减少 模块 使 用 计数 。 


try module get () 和 module_put () 的 引入 、 使 用 与 Linux 2.6 以 后 的 内 核 下 的 设备 模型 密切 相关 。Linux 2.6 以 后 的 内 核 为 不 同类 型 的 设备 定义 了 struct module*owner 域 ， 用 来 指向 管理 此 设备 的 
模块 。 当 开始 使 用 某 个 设备 时 ， 内 核 使 用 try_ module_get (dev->owner) 去 增加 管理 此 设备 的 owner 模 块 的 使 
的 管理 模块 的 使 用 计数 。 这 样 ， 当 设备 在 使 用 时 ， 管 理 此 设备 的 模块 将 不 能 被 卸载 。 只 有 当 设备 不 再 被 使 


在 Linux 2.6 以 后 的 内 核 下 ， 对 于 设备 驱动 而 言 ， 很 少 需要 亲自 调 


计数 管理 由 内 核 里 更 底层 的 代码 (如 总 线 驱动 或 是 此 类 设备 共用 的 核心 模块 ) 来 实现 ， 从 而 简化 了 设备 驱动 


4.9 模块 的 编译 


我 们 可 以 为 代码 清单 4.1 的 模板 编写 一 个 简单 的 Makefile: 


KVERS = $(shell uname -r) 
# Kernel modules 
obj-m += hello.o 
# Specify flags for the module compilation. 
#EXTRA_CFLAGS=-g -00 
build: kernel_modules 
kernel modules: 
make -C /lib/modules/$ (KVERS) /build M=$(CURDIR) modules 
clean: 
make -C /lib/modules/$ (KVERS) /build M=$(CURDIR) clean 


计数 ; 当 不 再 使 


计数 管理 宏 。 模 块 的 使 


此 设备 时 ， 内 核 使 


时 ， 模 块 才 允 许 被 卸载 。 


try module get () 与 module put () , 


为 此 时 开发 人 员 所 写 的 驱动 通常 为 支持 某 


计数 一 般 不 必 由 模 块 


module_put (dev->owner) 减少 对 管理 此 设备 


体 设备 的 管理 模块 ， 对 此 设备 owner 模 块 的 


该 Makefile 文 件 应 该 与 源 代码 hello.c 位 于 同一 目录 ， 开 启 其 中 的 EXTRA_CFLAGS=-g-O0， 可 以 得 到 包含 调试 信息 的 hello.ko 模 块 。 运 行 make 命 令 得 到 的 模块 可 直接 在 PC 上 运行 。 


如 果 一 个 模块 包括 多 个 .c 文 件 (如 file1.c、file2.c) ， 则 应 该 以 如 下 方式 编写 Makefile: 


obj-m := modulename.o 
modulename-objs := filel.o file2.o 


4.10 ”使 用 模块 “ 绕 开 ”GPL 


Linux 内 核 有 两 种 导出 符号 的 方法 给 模块 使 用 ， 一 种 方法 是 EXPORT_SYMBOL () ， 另 外 一 种 是 EXPORT_SYMBOL_ GPL () 。 这 一 点 和 模块 A 导出 符号 给 模块 B 用 是 一 致 的 。 


内 核 的 Documentation/DocBook/kernel-hacking.tmpl 明 确 表明 “the symbols exported by EXPORT_SYMBOL GPL () can only be seen by modules with a MODULE LICENSE () that 


specifies a GPL compatible license.” 由 此 可 见 内 核 用 EXPORT_SYMBOL_ GPL () 导出 的 符号 是 不 可 以 被 非 GPL 模 块 引 


由 于 相当 多 的 内 核 符号 都 是 以 EXPORT_ SYMBOL GPL () 导出 的 ， 所 以 历史 上 曾经 有 一 些 公司 把 内 核 的 EXPORT_SY 
发 布 。 这 样 修 改 内 核 之 后 ， 模 块 不 再 使 用 内 核 的 EXPORT_ SYMBOL GPL () 符号 ， 


xyz_GPL to the non-GPL one in order to use it with a non-GPL module would 


get triple damages and/or injunctions, since they clearly knew about it” . 


另外 一 种 做 法 是 写 一 个 wrapper 内 核 模 块 (这 个 模块 遵循 GPL) , #EEXPORT_SYMBOL GPL () 导出 的 符号 封装 一 次 后 再 以 EXPORT_ SYMBOL () 形式 导出 


wrapper 函 数 ， 如 图 4.1 所 示 。 这 种 做 法 也 具有 争议 。 


的 。 


MBOL GPL () 


因此 模块 不 再 需要 GPL。 对 此 Linus 的 
almost immediately fall under the “willful infringement” thing, and that it would make it MUCH easier to 


此 ， 这 种 做 法 可 能 构成 “蓄意 侵权 (willful infringement) " . 


接 改 为 EXPORT_ SYMBOL () ， 然 后 将 修改 后 的 内 核 以 GPL 形式 
可 复 是 : “| think both them said that anybody who were to change a 


他 的 模块 不 直接 调用 内 核 而 是 调用 


xxx func () 


{ at. 
wrapper funca() 其 他 模块 
非 GPL 
wrapper funca() 
{ 
funca () wrapper 模 块 
} GPL v2 
EXPORT SYMBOL (wrapper funca) 
funca () 
{ Linux 内 核 GPL v2 


} 
EXPORT SYMBOL GPL (funca) 


图 4.1 将 EXPORT_SYMBOL_ GPL 重新 以 EXPORT_SYMBOL 导 出 


一 般 认 为 ， 保 守 的 做 法 是 Linux 内 核 不 能 使 用 非 GPL 许可 权 。 


4.11 总 结 


本 章 主要 讲解 了 Linux 内 核 模块 的 概念 和 基本 的 编程 方法 。 内 核 模 块 由 加 载 /卸载 函数 、 功 能 函数 以 及 一 系列 声明 组 成 ， 它 可 以 被 传 和 参数， 也 可 以 导出 符号 供 其 他 模块 使 用 。 


由 于 Linux 设 备 驱动 以 内 核 模块 的 形式 存在 ， 因 此 ， 掌 握 这 一 章 的 内 容 是 编写 任何 设备 驱动 的 必需 。 


第 5 章 “Linux 文 件 系 统 与 设备 文件 


本 章 导读 


由 于 字符 设备 和 块 设备 都 良好 地 体现 了 “一 切 都 是 文件 ”的 设计 思想 ， 掌 握 Linux 文 件 系统 、 设 备 文件 系统 的 知识 就 显得 相当 重要 了 。 


首先 ， 驱 动 最 终 通过 与 文件 操作 相关 的 系统 调用 或 C 库 函数 (本 质 也 基于 系统 调用 ) 被 访问 ， 而 设备 驱动 的 结构 最 终 也 是 为 了 迎合 提供 给 应 用 程序 员 的 API。 


其 次 ， 驱 动工 程 师 在 设备 驱动 中 不 可 避免 地 会 与 设备 文件 系统 打交道 ， 包 括 从 Linux 2.4 内 核 的 devfs 文 件 系统 到 Linux 2.6 以 后 的 udev。 


5.1 节 讲解 了 通过 Linux API 和 (C 库 函数 在 用 户 


间 进 行 Linux 文 件 操作 的 编程 方法 。 


Ht 


5.2 节 分 析 了 Linux 文 件 系统 的 目录 结构 ， 简 单 介绍 了 Linux 内 核 中 文件 系统 的 实现 ， 并 给 出 了 文件 系统 与 设备 驱动 的 关系 。 


5.3 节 和 5.4 节 分 别 讲解 Linux 2.4 内 核 的 devfs 和 Linux 2.6 以 后 的 内 核 所 采用 的 udev 设 备 文件 系统 ， 并 分 析 了 两 者 的 区 别 。 5.4 节 还 重点 介绍 了 Linux 的 设备 驱动 模型 、sysfs 以 及 udev 的 规则 编写 。 


5.1 Linux 文 件 操作 


5.1.1 “文件 操作 系统 调用 


Linux 的 文件 操作 系统 调用 (在 Windows 编 程 领域 ， 习 惯 称 操 作 系 统 提供 的 接口 为 API) 涉及 创建 、 打 开 、 读 写 和 关闭 文件 。 


1. 创 建 


int creat (const char *filename, mode_t mode); 


参数 mode 指 定 新 建文 件 的 存 取 权限 ， 它 同 umask 一 起 决定 文件 的 最 终 权 限 (mode&umask) ， 其 中 ，umask 代 表 了 文件 在 创建 时 需要 去 掉 的 一 些 存 取 权 限 。umask 可 通过 系统 调用 umask () 来 改 


an: 
TE 


int umask (int newmask) ; 


该 调用 将 umask 设 置 为 newmask， 然 后 返回 旧 的 umask， 它 只 影响 读 、 写 和 执行 权限 。 


2. 打 开 


int open(const char *pathname, int flags); 
int open(const char *pathname, int flags, mode_t mode); 


open () 函数 有 两 个 形式 ， 其 中 pathname 是 我 们 要 打开 的 文件 名 (包含 路 径 名 称 ， 缺 省 是 认为 在 当前 路 径 下 面 ) ，flags 可 以 是 表 5.1 中 的 一 个 值 或 者 是 几 个 值 的 组 合 。 


表 5.1 文件 打开 标志 


O_RDONLY 以 只 读 的 方式 打开 文件 

O_WRONLY 以 只 写 的 方式 打开 文件 

O_RDWR 以 读 写 的 方式 打开 文件 

O_APPEND 以 追加 的 方式 打开 文件 

O_CREAT 创建 一 个 文件 

O_EXEC 如 果 使 用 了 O_CREAT 而 且 文 件 已 经 存在 ， 就 会 发 生 一 个 错误 
O_NOBLOCK 以 非 阻 塞 的 方式 打开 一 个 文件 

O_TRUNC 如 果 文 件 已 经 存在 ， 则 删除 文件 的 内 容 


O_RDONLY、O_WRONLY、O_RDWR 三 个 标志 只 能 使 用 任意 的 一 个 。 


如 果 使 用 了 O_CREATE 标 志 ， 则 使 用 的 函数 是 int open (const char*pathname, int flags, mode t mode) ; 这 个 时 候 我 们 还 要 指定 mode 标 志 ， 以 表示 文件 的 访问 权限 。mode 可 以 是 表 5.2 中 所 列 
值 的 组 合 。 


表 5.2 文件 访问 权限 


标 志 a xX 

S IRUSR 用 户 可 以 读 

S IWUSR 用 户 可 以 写 

S_IXUSR 用 户 可 以 执行 
S_IRWXU 用 户 可 以 读 、 写 、 执 行 
S IRGRP 组 可 以 读 

S_IWGRP 组 可 以 写 

S_IXGRP 组 可 以 执行 

S_IRWXG 组 可 以 读 、 写 、 执 行 
S_IROTH 其 他 人 可 以 读 
S_IWOTH 其 他 人 可 以 写 
S_IXOTH 其 他 人 可 以 执行 
S_IRWXO 其 他 人 可 以 读 、 写 、 执 行 
S_ISUID 设置 用 户 执行 ID 
S_ISGID 设置 组 的 执行 ID 


除了 可 以 通过 上 述 宏 进行 “或 ”逻辑 产生 标志 以 外 ， 我 们 也 可 以 自己 用 数字 来 表示 ，Linux 用 5 个 数字 来 表示 文件 的 各 种 权限 : 第 一 位 表示 设置 用 户 ID; 第 二 位 表示 设置 组 \D; 第 三 位 表示 用 户 自己 的 权 
限 位 ; 第 四 位 表示 组 的 权限 ; 最 后 一 位 表示 其 他 人 的 权限 。 每 个 数字 可 以 取 1 (执行 权限 ) 、2 (BAIR) 、4 ( 读 权 限 ) 、0 (无 ) 或 者 是 这 些 值 的 和 。 例 如 ， 要 创建 一 个 用 户 可 读 、 可 写 、 可 执行 ， 但 是 组 
没有 权限 ， 其 他 人 可 以 读 、 可 以 执行 的 文件 ， 并 设置 用 户 ID 位 ， 那 么 应 该 使 用 的 模式 是 1 (设置 用 户 ID) 、0 (不 设置 组 ID) 、7 (14+2+4, 读 、 写 、 执 行 ) 0 (没有 权限 ) 、5 (1+4， 读 、 执 行 ) 即 
10705: 


open("test", O CREAT, 10 705); 


上 述 语句 等 价 于 : 


open("test", O CREAT, S_IRWXU | S_IROTH | S_IXOTH | S_ISUID ); 


如 果 文 件 打开 成 功 ，open 函 数 会 返回 一 个 文件 描述 符 ， 以 后 对 该 文件 的 所 有 操作 就 可 以 通过 对 这 个 文件 描述 符 进行 操作 来 实现 。 


3. 读 写 


在 文件 打开 以 后 ， 我 们 才 可 对 文件 进行 读 写 ，Linux 中 提供 文件 读 写 的 系统 调用 是 read、write 函 数 : 


int read(int fd, const void *buf, size_t length); 
int write (int fd, const void *buf, size_t length); 


其 中 ， 参 数 buf 为 指向 缓冲 区 的 指针 ，length 为 缓冲 区 的 大 小 〈 以 字 节 为 单位 ) 。 函 数 read () 实现 从 文件 描述 符 fd 所 指定 的 文件 中 读 取 length 个 字 节 到 buf 所 指向 的 缓冲 区 中 ， 返 回 值 为 实际 读 取 的 字 
节 数 。 函 数 write 实 现 把 length 个 字 节 从 buf 指 向 的 缓冲 区 中 写 到 文件 描述 符 fd 所 指向 的 文件 中 ， 返 回 值 为 实际 写 入 的 字 节 数 。 


回 


以 O_CREAT 为 标志 的 open 实 际 上 实现 了 文件 创建 的 功能 ， 因 此 ， 下 面 的 函数 等 同 于 creat () 函数 : 


int open (pathname, O CREAT | O_WRONLY | O_TRUNC, mode); 


4. 定 位 


对 于 随机 文件 ， 我 们 可 以 随机 指定 位 置 进行 读 写 ， 使 用 如 下 函数 进行 定位 : 


int lseek(int fd, offset_t offset, int whence); 


Iseek () 将 文件 读 写 指针 相对 whence 移 动 offset 个 字 节 。 操 作成 功 时 ， 返 回 文件 指针 相对 于 文件 头 的 位 置 。 参 数 whence 可 使 用 下 述 值 : 


SEEK_SET: 相对 文件 开头 
SEEK_CUR: 相对 文件 读 写 指 针 的 当前 位 置 


SEEK END: 相对 文件 末尾 


offset 可 取 负 值 ， 例 如 下 述 调 用 可 将 文件 指针 相对 当前 位 置 向 前 移动 5 个 字 节 : 


lseek (fd, -5, SEEK CUR); 


由 于 lseek 函 数 的 返回 值 为 文件 指针 相对 于 文件 头 的 位 置 ， 因 此 下 列 调用 的 返 


回 


值 就 是 文件 的 长 度 : 


lseek (fd, 0, SEEK END) ; 


5. 关 闭 


当 我 们 操作 完成 以 后 ， 要 关闭 文件 ， 此 时 ， 只 要 调用 close 就 可 以 了 ， 其 中 fd 是 我 们 要 关闭 的 文件 描述 符 : 


int close (int fd); 


例 程 : 编写 一 个 程序 ， 在 当前 目录 下 创建 用 户 可 读 写 文件 hello.txt， 在 其 中 写 入 “Hello，software weekly” ， 关 闭 该 文件 。 再 次 打开 该 文件 ， 读 取 其 中 的 内 容 并 输出 在 屏幕 上 。 


解答 如 代码 清单 5.1。 


代码 清单 5.1 Linux 文 件 操作 用 户 空间 编程 〈 使 用 系统 调用 ) 


1 #include <sys/types.h> 
2 #include <sys/stat.h> 
3 #include <fcntl.h> 

4 #include <stdio.h> 

5 #define LENGTH 100 
6 

7 

8 


main () 
{ 
int fd, len; 
9 char str[LENGTH]; 
10 


11 fd = open("hello.txt", O CREAT | O_RDWR, S_IRUSR | S_IWUSR); /* 
12 创建 并 打开 文件 */ 
13 if (fd) { 


14 write(fd, "Hello World", strlen("Hello World")); /* 
15 写 入 字符 串 */ 

16 close (fd) ; 

17 } 

18 


19 fd = open("hello.txt", O_RDWR); 

20 len = read(fd, str, LENGTH); /* 读 取 文 件 内 容 */ 
21 str[len] = '\0'; 

22 printf ("%s\n", str); 

23 close (fd); 


编译 并 运行 ， 执 行 结果 为 输出 “Hello World" , 


5.2 Linux 文 件 系统 


5.2.1 ”Linux 文 件 系统 目录 结构 


进入 Linux 根 目录 ( 即 “/”，Linux 文 件 系统 的 入 口 ， 也 是 处 于 最 高 一 级 的 目录 ) ， 运 行 “ls-|” 命 令 ， 看 到 Linux 包 含 以 下 目录 。 
1./bin 
包含 基本 命令 ， 如 ls、cp、mkdir 等 ， 这 个 目录 中 的 文件 都 是 可 执行 的 。 


2./sbin 


包含 系统 命令 ， 如 modprobe、hwclock、ifconfig 等 ， 大 多 是 涉及 系统 管理 的 命令 ， 这 个 目录 中 的 文件 都 是 可 执行 的 。 


3./dev 


设备 文件 存储 目录 ， 应 用 程序 通过 对 这 些 文件 的 读 写 和 控制 以 访问 实际 的 设备 。 


4./etc 


系统 配置 文件 的 所 在 地 ， 一 些 服务 器 的 配置 文件 也 在 这 里 ， 如 用 户 账号 及 密码 配置 文件 。busybox 的 启动 脚本 也 存放 在 该 目录 。 
5./lib 
系统 库 文件 存放 目录 等 。 


6./mnt 


/mnt 这 个 目录 一 般 是 用 于 存放 挂 载 储存 设备 的 挂 载 目录 ， 比 如 含有 cdrom 等 目录 。 可 以 参看 /etc/fstab 的 定义 。 有 时 我 们 可 以 让 系统 开机 自动 挂 载 文件 系统 ， 并 把 挂 载 点 放 在 这 里 。 


7./opt 
opt 是 “可 选 ”的 意思 ， 有 些 软件 包 会 被 安装 在 这 里 。 
8./proc 
操作 系统 运行 时 ， 进 程 及 内 核 信息 (比如 CPU、 硬 盘 分 区 、 内 存 信息 等 ) 存放 在 这 里 。/proc 目 录 为 伪 文 件 系统 proc 的 挂 载 目 录 ，proc 并 不 是 真正 的 文件 系统 ， 它 存在 于 内 存 之 中 。 


9./tmp 


户 运行 程序 的 时 候 ， 有 时 会 产生 临时 文件 ，/tmp 用 来 存放 | 临时 文件 。 


10./usr 


这 个 是 系统 存放 程序 的 目录 ， 比 如 用 户 命令 、 用 户 库 等 。 


11./var 


var 表 示 的 是 变化 的 意思 ， 这 个 目录 的 内 容 经 常 变 动 ， 如 /var 的 /varlog 目 录 被 用 来 存放 系统 日 志 。 


12./sys 


Linux 2.6 以 后 的 内 核 所 支持 的 sysfs 文 件 系统 被 映射 在 此 目录 上 。Linux 设 备 驱动 模型 中 的 总 线 、 驱 动 和 设备 都 可 以 在 sysfs 文 件 系统 中 找到 对 应 的 节点 。 当 内 核 检测 到 在 系统 中 出 现 了 新 设备 后 ， 内 核 会 


在 sysfs 文 件 系统 中 为 该 新 设备 生成 一 项 新 的 记录 。 


5.3 devfs 


devfs (设备 文件 系统 ) 是 由 Linux 2.4 内 核 引入 的 ， 引 入 时 被 许多 工程 师 给 予 了 高 度 评价 ， 它 的 出 现 使 得 设备 驱动 程序 能 自主 地 管理 自己 的 设备 文件 。 具 体 来 说 ，devfs 具 有 如 下 优点 。 


1) 可 以 通过 程序 在 设备 初始 化 时 在 /dev 目 录 下 创建 设备 文件 ， 印 载 设备 时 将 它 删 除 。 


2) 设备 驱动 程序 可 以 指定 设备 名 、 所 有 者 和 权限 位 ， 空间 程序 仍 可 以 修改 所 有 者 和 权限 位 。 


3) 不 再 需要 为 设备 驱动 程序 分 配 主 设备 号 以 及 处 理 次 设备 号 ， 在 程序 中 可 以 直接 给 register_ chrdev () 传递 0 主 设备 号 以 获得 可 用 的 主 设备 号 ， 并 在 devfs_register () 中 指定 次 设备 号 。 


驱动 程序 应 调用 下 面 这 些 函 数 来 进行 设备 文件 的 创建 和 撤销 工作 。 


/* 创建 设备 目录 */ 

Gevfs handle t devfs_mk_dir(devfs_handle t dir, const char *name, void *info); 

/* 创建 设备 文件 */ a. = = 

devfs handle t devfs_register(devfs_ handle t dir, const char *name, unsigned 
int flags, unsigned int major, unsigned int minor, umode_t mode, void *ops, 
void *info); 

/* 撤销 设备 文件 */ 


void devfs_unregister(devfs_handle t de); 


在 Linux 2.460 RS oR, DARREL, RHO SRR BHHE SATA. (SSeS. Shh 7 —MeAdevishepl. 


代码 清单 5.5 ”devfs 的 使 用 范例 


1 static devfs handle t devfs handle; 

2 static int _ init xxx_init (void) 

3{ 

4 int ret; 

5 int i; 

6 /* 在 内 核 中 注册 设备 */ 

7 ret = register chrdev (XXX MAJOR, DEVICE_NAME, &xxx_fops); 

8 if (ret < 0) { 

9 printk (DEVICE_NAME " can't register major number\n") ; 

10 return ret; 

11 } 

12 /* 创建 设备 文件 */ 

13 devfs handle =devfs register (NULL, DEVICE NAME, DEVFS FL DEFAULT, 

14 XXX_MAJOR, 0, S_IFCHR | S_IRUSR | S_IWUSR, &xxx fops, NULL); 

15 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
16 printk (DEVICE_NAME " initialized\n") ; = 


17 return 0; 


18 } 


20 static void _ exit xxx exit (void) 
21 { 
22 devfs_unregister (devfs_handle) ; /* 撤销 设备 文件 */ 
23 unregister _chrdev (XXX_MAJOR, DEVICE NAME); /* 注销 设备 */ 
} 


26 module_init (xxx init); 
27 module_exit (xxx exit); 


代码 中 第 7 行 和 第 23 行 分 别 用 于 注册 和 注销 字符 设备 ， 使 用 的 register_chrdev () 和 unregister_ chrdev () 在 Linux 2.6 以 后 的 内 核 中 仍 被 采用 。 第 13 和 22 行 分 别 用 于 创建 和 删除 devfs 文 件 节点 ， 这 些 
API 已 经 被 删除 了 。 


54 ”udev 用 户 空间 设备 管理 


54.1 udev 与 devfs 的 区 别 


尽管 devfs 有 这 样 和 那样 的 优点 ， 但 是 ， 在 Linux 2.6 内 核 中 ，devfs 被 认为 是 过 时 的 方法 ， 并 最 终 被 抛弃 了 ，udev 取 代 了 它 。Linux VFS 内 核 维 护 者 Al Viro 指 出 了 几 点 udev 取 代 devfs 的 原因 : 


1) devfs 所 做 的 工作 被 确信 可 以 在 用 户 态 来 完成 。 


N 


devfs 被 加 入 内 核 之 时 ， 大 家 期 望 它 的 质量 可 以 迎头 赶 上 。 


3) 发 现 devfs 有 一 些 可 修复 和 无 法 修复 的 bug。 


4) 对 于 可 修复 的 bug， 几 个 月 前 就 已 经 被 修复 了 ， 其 维护 者 认为 一 切 良好 。 


un 


) 对 于 后 者 ， 在 相当 长 的 一 段 时 间 内 没有 改观 。 


a 


devfs 的 维护 者 和 作者 对 它 感 到 失望 并 且 已 经 停止 了 对 代码 的 维护 工作 。 


Linux 内 核 的 两 位 贡献 者 ，Richard Gooch (devfs 的 作者 ) 和 Greg Kroah-Hartman (sysfs 的 主要 作者 ) 就 devfs/udev 进 行 了 激烈 的 争论 : 


Greg: Richard had stated that udev was a proper replacement for devfs. 

Richard: Well, that's news to me! 

Greg: devfs should be taken out because policy should exist in userspace and not in the kernel. 
Richard: sysfs, developed in large part by Greg, also implemented policy in the kernel. 


Greg: devfs was broken and unfixable 


Richard: No proof.Never say neverhttp://www.hzcourse.com/resource/readBook?path= /openresources /teach_ebook /uncompressed/15319/OEBPS/Text/... 


这 段 有 趣 的 争论 可 意译 如 下 : 

Greg: Richard 已 经 指出 ，udev 是 devfs 合 适 的 替代 品 。 

Richard: 哦 ， 我 怎么 不 知道 ? 

Greg: devfs 应 该 下 课 ， 因 为 策略 应 该 位 于 用 户 空间 而 不 是 内 核 空间 。 
Richard: 哦 ， 由 Greg 完成 大 部 分 工作 的 sysfs 也 在 内 核 中 实现 了 策略 。 


Greg: devfs(RJE Ry, 4 RAE 0 


Richard: 呵呵 ， 没 证 据 ， 别 那么 武断 …… 


在 Richard Gooch 和 Greg Kroah-Hartman 的 争论 中 ，Greg Kroah-Hartman 使 用 的 理论 依据 就 在 于 policy (策略 ) 不 能 位 于 内 核 空 间 中 。Linux 设 计 中 强调 的 一 个 基本 观点 是 机 制 和 策略 的 分 离 。 机 制 | 
是 做 某 样 事情 的 固定 步骤 、 方 法 ， 而 策略 就 是 每 一 个 步骤 所 采取 的 不 同方 式 。 机 制 是 相对 固定 的 ， 而 每 个 步骤 采用 的 策略 是 不 固定 的 。 机 制 是 稳定 的 ， 而 策略 则 是 灵活 的 ， 因 此 ， 在 Linux 内 核 中 ， 不 应 该 实 
现 策略 。 


比如 Linux 提 供 API 可 以 让 人 把 线程 的 优先 级 调 高 或 者 调 低 ， 或 者 调整 调度 策略 为 SCHED_FIFO 什 么 的 ， 但 是 Linux 内 核 本 身 却 不 管 谁 高 谁 低 。 提 供 API 属 于 机 制 ， 谁 高 谁 低 这 属于 策略 ， 所 以 应 该 是 应 
程序 自己 去 告诉 内 核 要 高 或 低 ， 而 内 核 不 管 这 些 杂 事 。 同 理 ，Greg Kroah-Hartman 认 为 ， 属 于 策略 的 东西 应 该 被 移 到 用 户 空间 中 ， 谁 爱 给 哪个 设备 创建 什么 名 字 或 者 想 做 更 多 的 处 理 ， 谁 自己 去 设 定 。 
核 只 管 把 这 些 信息 告诉 用 户 就 行 了 。 这 就 是 位 于 内 核 空间 的 devfs 应 该 被 位 于 用 户 空间 的 udev 取 代 的 原因 ， 应 该 devfs 管 了 一 些 不 靠 谱 的 事情 。 


下 面 举 一 个 通俗 的 例子 来 理解 udev 设 计 的 出 发 点 。 以 谈 恋爱 为 例 ，Greg Kroah-Hartman 认 为 ， 可 以 让 内 核 提供 谈 恋爱 的 机 制 ， 但 是 不 能 在 内 核 空间 中 限制 跟 谁 谈 恋爱 ， 不 能 把 谈 恋爱 的 策略 放 在 内 核 
空间 。 因 为 恋爱 是 自由 的 ， 用 户 应 该 可 以 在 用 户 空间 中 实现 “萝卜 白菜 ， 各 有 所 爱 ” 的 理想 ， 可 以 根据 对 方 的 外 狐 、 籍 贯 、 性 格 等 自由 选择 。 对 应 devfs 而 言 ， 第 1 个 相亲 的 女孩 被 命名 为 /dev/girl0， 第 2 个 
相亲 的 女孩 被 命名 为 /dev/girl1， 以 此 类 推 。 而 在 用 户 空间 实现 的 udev 则 可 以 使 得 用 户 实现 这 样 的 自由 : 不 管 你 中 意 的 女孩 是 第 几 个 ， 只 要 它 与 你 定义 的 规则 符合 ， 都 命名 为 /dev/mygirl! 


udev 完 全 在 用 户 态 工作 ， 利 用 设备 加 入 或 移 除 时 内 核 所 发 送 的 热 插 拔 事件 (Hotplug Event) 来 工作 。 在 热 插 拔 时 ， 设 备 的 详细 信息 会 由 内 核 通过 netlink 套 接 字 发 送出 来 ， 发 出 的 事情 叫 uevent。 
udev 的 设备 命名 策略 、 权 限 控制 和 事件 处 理 都 是 在 用 户 态 下 完成 的 ， 它 利用 从 内 核 收 到 的 信息 来 进行 创建 设备 文件 节点 等 工作 。 代 码 清单 5.6 给 出 了 从 内 核 通 过 netlink 接 收 热 插 拔 事件 并 冲刷 掉 的 范 
例 ，udev 采 用 了 类 似 的 做 法 。 


代码 清单 5.6 ”netlink 的 使 用 范例 


1 #include <linux/netlink.h> 
2 


3 static void die(char *s) 
4{ 

5 write(2, s, strlen(s)); 
6 exit(1); 


9 int main(int argc, char *argv[]) 
10{ 

11 struct sockaddr nl nls; 

12 struct pollfd pfd; 

13 char buf[512]; 


15 // Open hotplug event netlink socket 


17 memset (&nls, 0, sizeof (struct sockaddr nl)); 
18 nls.nl family = AF_NETLINK; ~ 

19 nls.nl pid = getpid(); 

20 nls.nl groups = -1; 


22 pfd.events = POLLIN; 


23 pfd.fd = socket (PF_NETLINK, SOCK DGRAM, NETLINK KOBJECT UEVENT); 


24 if (pfd.fd = -1) 
25 die ("Not root\n"); 
26 


27 // Listen to netlink socket 
28 if (bind(pfd.fd, (void *)&nls, sizeof(struct sockaddr_nl))) 


29 die ("Bind failed\n") ; 

30 while (-1 != poll(&pfd, 1, -1)) { 
31 int i, len = recv(pfd.fd, buf, sizeof (buf), MSG _DONTWAIT); 
32 if (len = -1) 

33 die ("recv\n") ; 

34 

35 // Print the data to stdout. 
36 i= 0; 

37 while (i < len) { 

38 printf ("%s\n", buf + i); 
39 i += strlen(buf + i) + 1; 
40 } 

41 } 

42 die("poll\n"); 

43 


44 // Dear gcc: shut up. 
45 return 0; 


编译 上 述 程序 并 运行 ， 把 Apple Facetime HD Camera USB 摄 像 头 插入 Ubuntu， 该 程序 会 dump 类 似 如 下 的 信息 : 


ACTION=add 


DEVLINKS=/dev/input/by-id/usb-Apple Inc. FaceTime HD Camera Built-in 


CC2B2FOTLSDG6LLO-event-if00 /dev/input/by-path/pci-0000:00:0b.0-usb-0:1:1.0-event 
DEVNAME=/dev/input/event6 
DEVPATH=/devices/pci0000:00/0000:00:0b.0/usb1/1-1/1-1:1.0/input/input6/event6é 
ID_BUS=usb 

ID_INPUT=1 

ID_INPUT_KEY=1 

ID_MODEL=FaceTime HD Camera Built-in 
ID_MODEL_ENC=FaceTime\x20HD\x20Camera\x20\x28Built-in\x29 
ID MODEL TD=8509 

ID_PATH=pci-0000:00:0b.0-usb-0:1:1.0 

ID_PATH_TAG=pci- 


udev 就 是 采用 这 种 方式 接收 netlink 消 息 ， 并 根据 它 的 内 容 和 用 户 设置 给 udev 的 规则 做 匹配 来 进行 工作 的 。 这 号 


里 有 一 个 问题 ， 就 是 冷 插 拔 的 设备 怎么 办 ” 冷 插 拔 的 设备 在 开机 时 就 存在 ， 在 udev 启 动 前 


已 经 被 插入 了 。 对 于 冷 播 拔 的 设备 ，Linux 内 核 提供 了 sysfs 下 面 一 个 uevent 节 点 ， 可 以 往 该 节点 写 一 个 “add” ， 导 致 内 核 重 新 发 送 netlink， 之 后 udev 就 可 以 收 到 冷 插 拔 的 netlink 消 息 了 。 我 们 还 是 运行 代 


miS 


m5.6 的 程序 ， 并 手动 往 /sys/module/psmouse/uevent 写 一 个 “add”， 上 述 程序 会 dump 出 来 这 样 的 信息 : 


ACTION=add 
DEVPATH=/module/psmouse 
SEQNUM=1682 

SUBSYSTEM=module 

UDEV_LOG=3 
USEC_INITIALIZED=220 903546792 


devfs 与 udev 的 另 一 个 显著 区 别 在 于 : 采用 devfs， 当 一 个 并 不 存在 的 /dev 节 点 被 打开 的 时 候 ，devfs 能 自动 加 载 对 应 的 驱动 ， 而 udev 则 不 这 么 做 。 这 是 因为 udev 的 设计 者 认为 Linux 应 该 在 设备 被 发 现 


的 时 候 加 载 驱动 模块 ， 而 不 是 当 它 被 访问 的 时 候 。udev 的 设计 者 认为 devfs 所 提供 的 打开 /dev 节 点 时 


并 加 载 恰当 的 驱动 ， 而 udev 能 注意 到 这 点 并 且 为 它 创建 对 应 的 设备 节点 。 


55 总结 
Linux 用 户 空间 的 文件 编程 有 两 种 方法 ， 即 通过 Linux API 和 通过 C 库 函数 访问 文件 。 用 户 空间 看 不 到 设备 驱动 ， 


动 加 载 驱动 的 功能 对 一 个 配置 正确 的 计算 机 来 说 是 多 余 的 。 系 统 中 所 有 的 设备 都 应 该 产生 热 插 拔 事件 


能 看 到 的 只 有 与 设备 对 应 的 文件 ， 因 此 文件 编程 也 就 是 用 户 空间 的 设备 编程 。 


Linux 按 照 功能 对 文件 系统 的 目录 结构 进行 了 良好 的 规划 。/dev 是 设备 文件 的 存放 目录 ，devfs 和 udev 分 别 是 Linux 2.4 和 Linux 2.6 以 后 的 内 核 生成 设备 文件 节点 的 方法 ， 前 者 运行 于 内 核 空间 ， 后 者 运 


行 于 


户 空间 。 


Linux 2.6 以 后 的 内 核 通 过 一 系列 数据 结构 定义 了 设备 模型 ， 设 备 模型 与 sysfs 文 件 系统 中 的 目录 和 文件 存在 一 种 
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对 应 关系 。 设 备 和 驱动 分 离 ， 并 通过 总 线 进行 匹配 。 


区 动 


在 整个 Linux 设 备 驱 动 的 学 习 中 ， 字 符 设 备 驱 动 较为 基础 。 本 章 将 讲解 Linux 字 符 设备 驱动 程序 的 结构 ， 并 解释 其 主要 组 成 部 分 的 编程 方法 。 


6.1 节 讲解 了 Linux 字 符 设备 驱动 的 关键 数据 结构 cdev 及 file_operations 结 构 体 的 操作 方法 ， 并 分 析 了 Linux 字 符 设备 的 整体 结构 ， 给 出 了 简单 的 设计 模板 。 


6.2 节 描述 了 本 章 及 后 续 各 章节 所 基于 的 globalmem 虚 拟 字符 设备 ， 第 6~9 章 都 将 基于 


6.3 节 依据 6.1 节 的 知识 讲解 globalmem 的 


FF 该 虚拟 设备 实例 进行 字符 设备 驱动 及 并 发 控制 等 知识 的 讲解 。 


设备 驱动 编写 方法 ， 对 读 写 函 数 、seek () 函数 和 I/O 控 制 函数 等 进行 了 重点 分 析 。 该 节 的 最 后 也 讲解 了 Linux 驱 动 编程 “私有 数据 ”的 用 法 。 


6.4 节 给 出 了 6.3 节 的 globalmem 设 备 驱动 在 用 户 空 间 的 验证 。 


6.1 “Linux 字 符 设备 驱动 结构 


6.1.1 cdev 结 构 体 


在 Linux 内 核 中 ， 使 用 cdev 结 构 体 描述 一 个 字符 设备 ，cdev 结 构 体 的 定义 如 代码 清单 6.1。 


代码 清单 6.1 cdev 结 构 体 


lstruct cdev { 


2 struct kobject kobj; /* 内 嵌 的 kobject 对 象 */ 
3 struct module *owner; /* 所 属 模块 x/ 

4 struct file operations *ops; /* 文件 操作 结构 体 */ 

5 struct list head list; 

6 dev t dev; ` /* 设备 号 */ 

7 unsigned int count; 

8}; 


cdev 结 构 体 的 dev_t 成 员 定义 了 设备 号 ， 为 32 位 ， 其 中 12 位 为 主 设备 号 ，20 位 为 次 设备 号 。 使 用 下 列 宏 可 以 从 dev t 获 得 主 设备 号 和 次 设备 号 : 


MAJOR (dev_t dev) 
MINOR (dev_t dev) 


而 使 用 下 列 宏 则 可 以 通过 主 设备 号 和 次 设备 号 生成 dev t: 


MKDEV (int major, int minor) 


cdev 结 构 体 的 另 一 个 重要 成 员 file operations 定 义 了 字符 设备 驱动 提供 给 虚拟 文件 系统 的 接口 函数 。 


Linux 内 核 提 供 了 一 组 函数 以 用 于 操作 cdev 结 构 体 : 


void cdev_init (struct cdev *, struct file operations *); 
struct cdev *cdev_alloc (void) ; = 

void cdev put (struct cdev *p); 

int cdev_add(struct cdev *, dev_t, unsigned); 

void cdev_del(struct cdev *); 


cdev init () 函数 用 于 初始 化 cdev 的 成 员 ， 并 建立 cdev 和 file_ operations 之 间 的 连接 ， 其 源 代码 如 代码 清单 6.2 所 示 。 


代码 清单 6.2 cdev init () 函数 


lvoid cdev_init (struct cdev *cdev, struct file operations *fops) 


2 

3 memset (cdev, 0, sizeof *cdev); 

4 INIT_LIST HEAD (&cdev->list) ; 

5 kobject_init (&cdev->kobj, &ktype_cdev_default) ; 

6 cdev->ops = fops; /* 将 传 入 的 文件 操作 结构 体 指 针 赋 值 给 cdev 的 ops*/ 
7} 


cdev alloc () 函数 用 于 动态 申请 一 个 cdev 内 存 ， 其 源 代码 如 代码 清单 6.3 所 示 。 


代码 清单 6.3 cdev alloc () 函数 


1struct cdev *cdev_alloc (void) 
2{ 


3 struct cdev *p = kzalloc (sizeof (struct cdev), GFP_KERNEL) ; 
4 if (p) { 

5 INIT LIST HEAD (&p->list); 

6 kobject_init (&p->kobj, &ktype_cdev_dynamic) ; 

7 } 

8 return p; 

9} 


cdev add () 函数 和 cdev_del () 函数 分 别 向 系统 添加 和 删除 一 个 cdev， 完 成 字符 设备 的 注册 和 注销 。 对 cdev_add () 的 调用 通常 发 生 在 字符 设备 驱动 模块 加 载 函 数 中 ， 而 对 cdev_del () 函数 的 调 
则 通常 发 生 在 字符 设备 驱动 模块 卸载 函数 中 。 


6.2 _ globalmem 虚 拟 设 备 实例 描述 


从 本 章 开始 ， 后 续 的 数 章 都 将 基于 虚拟 的 globalmem 设 备 进 行 字符 设备 驱动 的 讲解 。globalmem 意 味 着 “全 局 内 存 ”， 在 globalmem 字 符 设 备 驱动 中 会 分 配 一 片 大 小 为 GLOBALMEM SIZE (4KB) 
的 内 存 空间 ， 并 在 驱动 中 提供 针对 该 片 内 存 的 读 写 、 控 制 和 定位 函数 ， 以 供用 户 空间 的 进程 能 通过 Linux 系 统 调用 获取 或 设置 这 片 内 存 的 内 容 。 


实际 上 ， 这 个 虚拟 的 globalmem 设 备 几 乎 没有 任何 实用 价值 ， 仅 仅 是 一 种 为 了 讲解 问题 的 方便 而 赁 空 制造 的 设备 。 


本 章 将 给 出 globalmem 设 备 驱 动 的 雏形 ， 而 后 续 章节 会 在 这 个 雏形 的 基础 上 添加 并 发 与 同步 控制 等 复杂 功能 。 


6.3 globalmem 设 备 驱动 


6.3.1” 头 文件 、 宏 及 设备 结构 体 


在 globalmem 字 符 设备 驱动 中 ， 应 包含 它 要 使 用 的 头 文件 ， 并 定义 globalmem 设 备 结构 体 及 相关 宏 。 


代码 清单 6.8 ”globalmem 设 备 结构 体 和 宏 


1#include <linux/module.h> 
2#include <linux/fs.h> 
3#include <linux/init.h> 
4#include <linux/cdev.h> 
5#include <linux/slab.h> 
6#include <linux/uaccess.h> 


7 
8#define GLOBALMEM SIZE 0x1000 

9#define MEM CLEAR 0x1 

10#define GLOBALMEM MAJOR 230 

11 

12static int globalmem major = GLOBALMEM MAJOR; 
13module_param(globalmem_major, int, S_TRUGO); 
14 


15struct globalmem_dev { 

16 struct cdev cdev; 

17 unsigned char mem[GLOBALMEM SIZE]; 
18}; 

19 


20struct globalmem_dev *globalmem_devp; 


从 第 15~18 行 代码 可 以 看 出 ， 定 义 的 globalmem_dev 设 备 结构 体 包含 了 对 应 于 globalmem 字 符 设备 的 cdev、 使 用 的 内 存 mem[GLOBALMEM_SIZE]。 当 然 ， 程 序 中 并 不 一 定 要 把 
mem[GLOBALMEM_SIZE] 和 cdev 包 含 在 一 个 设备 结构 体 中 ， 但 这 样 定义 的 好 处 在 于 ， 它 借用 了 面向 对 象 程序 设计 中 “封装 ”的 思想 ,体现 了 一 种 良好 的 编程 习惯 。 


6.4 globalmem 驱 动 在 用 户 空间 中 的 验证 


在 globalmem 的 源 代码 目录 通过 “make” 命 令 编译 globalmem 的 驱动 ， 得 到 globalmem.ko 文 件 。 运 行 


baohua@baohua-VirtualBox: ~/develop/training/kernel/drivers/globalmem/ch6$ sudo 
insmod globalmem. ko 


命令 加 载 模块 ， 通 过 “Insmod” 命 令 ， 发 现 globalmem 模 块 已 被 加 载 。 再 通过 “cat/proc/devices” 命 令 查看 ， 发 现 多 出 了 主 设备 号 为 230 的 “globalmem” 字 符 设备 驱动 : 


$ cat /proc/devices 
Character devices: 


lmem 
4/dev/vc/0 
4tty 
Attys 
5/dev/tty 
5/dev/console 
5/dev/ptmx 
Ives 
10misc 
13input 
14sound 
21sg 


189usb_device 
202cpu/msr 
203cpu/cpuid 
226drm 
230globalmem 
249hidraw 
250usbmon 
251bsg 
252ptp 
253pps 
254rtc 


接 下 来 ， 通 过 命令 


#mknod /dev/globalmem c 230 0 


BR “/dev/globalmem" 设备 节点 ， 并 通过 “echo'hello world'>/dev/globalmem” 命令 和 “cat/devwglobalmem” 命令 分 别 验证 设备 的 写 和 读 ， 结 果 证 明 “hello world” 字 符 串 被 正确 地 写 入 了 
globalmem 字 符 设备 : 


# echo "hello world" > /dev/globalmem 
# cat /dev/globalmem 
hello world 


如 果 启 用 了 sysfs 文 件 系 统 ， 将 发 现 多 出 了 /sys/module/globalmem 目 录 ,该 目录 下 的 树 形 结构 为 : 


coresize | holders initsize initstate | notes parameters | l globalmem_major |—— refcnt |—— sections | __param | taint | ue" 


refcnt 记 录 了 globalmem 模 块 的 引用 计数 ，sections 下 包含 的 几 个 文件 则 给 出 了 globalmem 所 包含 的 gsSs、 数 据 段 和 代码 段 等 的 地 址 及 其 他 信息 。 


对 于 代码 清单 6.18 给 出 的 支持 N 个 globalmem 设 备 的 驱动 ， 在 加 载 模块 后 需 创建 多 个 设备 节点 ， 如 运行 mknod/dewglobalmem0c 2300 使 得 /dev/globalmem0 对 应 主 设备 号 为 globalmem_major、 
次 设备 号 为 0 的 设备 ， 运 行 mknod/dev/globalmem1c 2301 使 得 /dev/globalmem1 对 应 主 设备 号 为 globalmem_major、 次 设备 号 为 1 的 设备 。 分 别 读 写 /dev/globalmem0 和 /dev/globalmem1， 发 现 都 
读 写 到 了 正确 的 对 应 的 设备 。 


字符 设备 是 3 大 类 设备 (字符 设备 、 块 设备 和 网 络 设备 ) 中 的 一 类 ， 其 驱动 程序 完成 的 主要 工作 是 初始 化 、 添 加 和 删除 cdev 结 构 体 ， 申 请 和 释放 设备 号 ， 以 及 填充 file_operations 结 构 体 中 的 操作 函 
数 ， 实 现 file_operations 结 构 体 中 的 read () 、write () 和 ioctl () 等 函数 是 驱动 设计 的 主体 工作 。 


第 7 章 ”Linux 设 备 驱动 中 的 并 发 控制 
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在 Linux 设 备 驱动 中 必须 解决 的 一 个 问题 是 多 个 进程 对 共享 资源 的 并 发 访问 ， 并 发 的 访问 会 导致 竞 态 ， 即 使 是 经 验 丰富 的 驱动 工程 师 也 会 常常 设计 出 包含 并 发 问题 bug 的 驱动 程序 。 


Linux 提 供 了 多 种 解决 竞 态 问题 的 方式 ， 这 些 方式 适合 不 同 的 应 用 场景 。 


7.1 节 讲解 了 并 发 和 竞 态 的 概念 及 发 生 场合 。 


7.2 节 则 讲解 了 编译 乱 序 、 执 行 乱 序 的 问题 ， 以 及 内 存 屏 障 。 


7.3~7.8 节 分 别 讲 解 了 中 断 屏蔽 、 原 子 操作 、 自 旋 锁 、 信 号 量 和 互 斥 体 等 并 发 控制 机 制 。 


7.9 节 讲解 增加 并 发 控制 后 的 globalmem 的 设备 驱动 。 


7.1 并 发 与 况 态 


并 发 (Concurrency) 指 的 是 多 个 执行 单元 同时 、 并 行 被 执行 ， 而 并 发 的 执行 单元 对 共享 资源 (硬件 资源 和 软件 上 的 全 局 变量 、 静 态 变量 等 ) 的 访问 则 很 容易 导致 竞 态 (Race Conditions) 。 例 如 ， 
对 于 globalmem 设 备 ， 假 设 一 个 执行 单元 A 对 其 写 入 3000 个 字符 “a”,， 而 另 一 个 执行 单元 B 对 其 写 入 4000 个 “b”， 第 三 个 执行 单元 C 读 取 globalmem 的 所 有 字符 。 如 果 执 行 单元 A、B 的 写 操作 按 图 7.1 那 
样 顺 序 发 生 ， 执 行 单元 C 的 读 操作 当然 不 会 有 什么 问题 。 但 是 ， 如 果 执 行 单元 A、B 按 图 7.2 那 样 被 执行 ， 而 执行 单元 C 又 “不 合 时 宜 ” 地 读 ， 则 会 读 出 3000 个 “b”。 
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图 7.1 并 发 执行 单元 的 顺序 执行 
执行 单元 A 执行 单元 B 执行 单元 C 


copy —from _user (dev->mem+p, buf, count) 


Ts copy —from _user (dev->mem+p, buf, count) 
dev- > current _len=p+count 


~read_globalmem() 


dev-> current _len=p+count 


图 7.2 并 发 执行 单元 的 交错 执行 


比 图 7.2 更 复杂 、 更 混乱 的 并 发 大 量 存在 于 设备 驱动 中 ， 只 要 并 发 的 多 个 执行 单元 存在 对 共享 资源 的 访问 ， 竞 态 就 可 能 发 生 。 在 Linux 内 核 中 ， 主 要 的 竞 态 发 生 于 如 下 几 种 情况 。 


1. 对 称 多 处 理 器 (SMP) 的 多 个 CPU 


SMP 是 一 种 紧 耦 合 、 共 享 存储 的 系统 模型 ， 其 体系 结构 如 图 7.3 所 示 ， 它 的 特点 是 多 个 CPU 使 用 共同 的 系统 总 线 ， 因 此 可 访问 共同 的 外 设 和 储存 器 。 


TFIA 


图 7.3 SMP 体系 结构 


在 SMP 的 情况 下 ， 两 个 核 (CPU0 和 CPU1) 的 竞 态 可 能 发 生 于 CPU0 的 进程 与 CPU1 的 进程 之 间 、CPU0 的 进程 与 CPU1 的 中 断 之 间 以 及 CPU0 的 中 断 与 CPU1 的 中 断 之 间 ， 图 7.4 中 任何 一 条 线 连接 的 两 个 
实体 都 有 核 间 并 发 可 能 性 。 


CPUO CPU1 


并 发 


并 发 


并 发 


并 发 


并 发 


图 7.4 SMP 下 多 核 之 间 的 竞 态 


2. 单 CPU 内 进程 与 抢占 它 的 进程 


Linux 2.6 以 后 的 内 核 支持 内 核 抢 占 调度 ， 一 个 进程 在 内 核 执 行 的 时 候 可 能 耗 完了 自己 的 时 间 片 (timeslice) ， 也 可 能 被 另 一 个 高 优先 级 进程 打 断 ， 进 程 与 抢占 它 的 进程 访问 共享 资源 的 情况 类 似 于 SMP 
的 多 个 CPU。 


3. 中 断 ( 硬 中 断 、 软 中 断 、Tasklet、 底 


ERB) 与 进程 之 间 


中 断 可 以 打 断 正在 执行 的 进程 ， 如 果 中 断 服务 程序 访问 进程 正在 访问 的 资源 ， 则 竞 态 也 会 发 生 。 


此 外 ， 中 断 也 有 可 能 被 新 的 更 高 优先 级 的 中 断 打 断 ， 
IRQF_DISABLED 以 避免 中 断 谋 套 ， 由 于 


FF 新 内 核 直接 就 默认 不 谋 套 中 断 ， 这 个 标记 反而 变 得 无 F 


因此 ， 多 个 中 断 之 间 本 身 也 可 能 引起 并 发 而 导致 竞 态 。 但 是 Linux 2.6.35 之 后 ， 就 取消 了 中 断 的 嵌 套 。 老 版 本 的 内 核 可 以 在 日 
了 。 详 情 见 https://Iwn.net/Articles/380931/ 文 档 《Disabling IRQF_DISABLED》。 


请 中 断 时 ， 设 置 标记 


上 述 并 发 的 发 生 除 了 SMP 是 真正 的 并 行 以 外 ， 其 他 的 都 是 单 核 上 的 “宏观 并 行 ， 微 观 串 行 ” 


图 


， 但 其 引发 的 实质 问题 和 和 SMP 相似 。 


7.5 再 现 了 SM 


也 包括 两 个 核 间 的 竞 态 。 
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图 7.5 SMP 下 核 间 与 核 内 竞 态 


解决 竞 态 问题 的 途径 是 保证 对 共享 资源 的 互 斥 访问 ， 所 谓 互 斥 访问 是 指 一 个 执行 单元 在 访问 共享 资源 的 时 候 ， 其 他 的 执行 单元 被 禁止 访问 。 


并 发 


访问 共享 资源 的 代码 区 域 称 为 临界 区 (Critical Sections) ， 临 界 区 需要 被 以 某 种 互 斥 机 制 加 以 保护 。 中 断 屏蔽 、 原 子 操作 、 自 旋 锁 、 信 号 量 、 互 斥 体 等 是 Linux 设 备 驱动 中 可 采用 的 互 斥 途 径 。 
7.2 ”编译 乱 序 和 执行 乱 序 
理解 Linux 内 核 的 锁 机 制 ， 还 需要 理解 编译 器 和 处 理 器 的 特点 。 比 如 下 面 一 段 代码 ， 写 端 申请 一 个 新 的 struct foo 结 构 体 并 初始 化 其 中 的 a、b、c， 之 后 把 结构 体 地 址 赋值 给 全 局 gp 指针 : 
struct foo { 
int a; 
int b; 
int c; 


H 
st 
FE awa 
p = kmalloc (sizeof (*p), GFP_KERNEL) ; 
p->a = 1; 


ruct foo *gp = NULL; 
村 


而 读 端 如 果 简 单 做 如 下 处 理 ， 则 程序 的 运行 可 能 是 不 符合 预期 的 : 


p = gp; 

if (p != NULL) { 
do_something_with(p->a, p->b, p->c); 

} 


有 两 种 可 能 的 原 


会 造成 程序 出 错 ， 一 种 可 能 性 是 编译 乱 序 ， 另 外 一 种 可 能 性 是 执行 乱 序 。 


关于 编译 方面 ，C 语 言 顺序 的 “p->a=1; p->b=2; p->c=3; gp=p; ”的 编译 结果 的 指令 顺序 可 能 是 gp 的 赋值 指令 发 生 在 a、b、c 的 赋值 之 前 。 
行 乱 序 优化 的 能 力 。 编 译 器 可 以 对 访 存 的 指令 进行 乱 序 ， 减 少 逻 辑 上 不 必要 的 访 存 ， 以 及 尽量 提高 Cache 命 中 率 和 CPU 的 Load/Store 单 元 的 工作 效率 。 
有 严格 按照 代码 的 逻辑 顺序 ， 这 是 正常 的 。 


解决 编译 乱 序 问题 ， 需 要 通过 barrier () 编译 
语句 不 乱 “ 串 门 ”。 


屏障 进行 。 我 们 可 以 在 代码 中 设置 barrier () 屏障 ， 这 个 


h 
=] 


比如 ， 下 面 的 一 段 代码 在 e=d[4095] 与 b=a、c=a 之 间 没 有 编译 屏障 : 


屏障 可 以 阻挡 编译 器 的 优化 。 对 于 编译 器 来 说 ， 设 置 编译 屏障 可 以 保证 屏障 前 的 语句 和 


现代 的 高 性 能 编译 器 在 目标 码 优化 上 都 具备 对 指令 进 
此 在 打开 编译 器 优化 以 后 ， 看 到 生成 的 汇编 码 并 没 


屏障 后 的 


int main(int argc, char *argv[]) 
{ 


int a = 0, b, c, d[4096], e; 


“arm-linux-gnueabihf-gcc-O2” 优 化 编译 ， 反 汇编 结果 是 : 


int main(int argc, char *argv[]) 
{ 
831c: b530 push {r4, r5, lr} 


83le: f5ad 4d80 sub.w sp, sp, #16384 7 0x4000 
8322: b083 sub sp, #12 

8324: 2100 movs rl, #0 

8326: £50d 4580 add.w r5, sp, #16384 ; 0x4000 
832a: £248 4018 movw r0, #33816 ; 0x8418 

832e: 3504 adds r5, #4 

8330: 460a mov rž, ri -> b= a; 
8332: 460b mov r3, rl -> c= a; 
8334: f2c0 0000 movt r0, #0 

8338: 682c ldr r4, [r5, #0] 

833a: 9400 str r4, [sp, #0] -> e = d[4095]; 


833c: f7ff efd4 blx 82e8 <_init+0x20> 


显然 ， 尽 管 源 代 码 级 别 b=a、c=a 发 生 在 e=d[4095] 之 后 ， 但 是 目标 代码 的 b=a、c=a 指 令 发 生 在 e=d[4095] 之 前 。 


假设 我 们 重新 编写 代码 ， 在 e=d[4095] 与 b=a、c=a 之 间 加 上 编译 屏障 : 


#define barrier () _asm __ volatile ("": : :"memory") 
int main(int argc, char *argv[]) 
{ 
int a = 0, b, c, d[4096], e; 
e = d[4095]; 
barrier (); 
b=a; 
c=a; 
printf ("a:%d b:%d c:%d e:%d\n", a, b, c, e); 
return 0; 


再 次 用 “arm-linux-gnueabihf-gcc-O2” 优 化 编译 ， 反 汇编 结果 是 : 


int main(int argc, char *argv[]) 
{ 
831c: b510 push {r4, lr} 


83le: f5ad 4d80 sub.w sp, sp, #16384 ; 0x4000 
8322: b082 sub sp, #8 
8324: £50d 4380 add.w r3, sp, #16384 ; 0x4000 
8328: 3304 adds r3, #4 
832a: 681c Idr r4, [r3, #0] 
832c: 2100 movs rl, #0 
832e: £248 4018 movw r0, #33816 ; 0x8418 
8332: £2c0 0000 movt r0, #0 
8336: 9400 str r4, [sp, #0] -> e = d[4095]; 
8338: 460a mov r2, rl -> b= a; 
833a: 460b mov r3, rl -> c= a; 
833c: f7ff efd4 blx 82e8 <_init+0x20> 
} 
AJ "“_asm__volatile_ ("": : : "memory") ”这 个 编译 屏障 的 存在 ， 原 来 的 3 条 指令 的 顺序 “拨乱反正 ”了 。 


关于 解决 编译 乱 序 的 问题 ，C 语 言 volatile 关 键 字 的 作用 较 弱 ， 它 更 多 的 只 是 避免 内 存 访问 行为 的 合并 ， 对 人 编译 器 而 言 ，volatile 是 暗示 除了 当前 的 执行 线索 以 外 ， 其 他 的 执行 线索 也 可 能 改变 某 内 存 ， 
所 以 它 的 含义 是 “ 易 变 的 ”。 换 句 话说 ， 就 是 如 果 线程 A 读 取 var 这 个 内 存 中 的 变量 两 次 而 没有 修改 var， 编 译 器 可 能 觉得 读 一 次 就 行 了 ， 第 2 次 直接 取 第 1 次 的 结果 。 但 是 如 果 加 了 volatile 关 键 字 来 形容 var， 
则 就 是 告诉 编译 器 线程 B、 线 程 C 或 者 其 他 执行 实体 可 能 把 var 改 掉 了 ， 因 此 编译 器 就 不 会 再 把 线程 A 代 码 的 第 2 次 内 存 读 取 优化 掉 了 。 另 外 ，volatile 也 不 具备 保护 临界 资源 的 作用 。 总 之 ，Linux 内 核 明 显 不 
太 喜 欢 volatile， 这 可 参考 内 核 源 代码 下 的 文档 Documentation/volatile-considered-harmful.txt。 


编译 乱 序 是 编译 器 的 行为 ， 而 执行 乱 序 则 是 处 理 器 运行 时 的 行为 。 执 行 乱 序 是 指 即便 编译 的 二 进 制 指令 的 


项 序 按照 “p->a=1; p->b=2; p->c=3; gp=p; ”排放 ， 在 处 理 器 上 执行 时 ， 后 发 射 的 指 


令 还 是 可 能 先 执行 完 ， 这 是 处 理 器 的 “ 乱 序 执行 (Out-of-Order Execution) ”策略 。 高 级 的 CPU 可 以 根据 自己 缓存 的 组 织 特性 ， 将 访 存 指令 重新 排序 执行 。 连 续 地 址 的 访问 可 能 会 先 执行 ， 因 为 这 样 缓存 
命中 率 高 。 有 的 还 允许 访 存 的 非 阻塞 ， 即 如 果 前 面 一 条 访 存 指令 因为 缓存 不 命中 ， 造 成 长 延 时 的 存储 访问 时 ， 后 面 的 访 存 指令 可 以 先 执行 ， 以 便 从 缓存 中 取 数 。 因 此 ， 即 使 是 从 汇编 上 看 顺序 正确 的 指令 ， 


其 执行 的 顺序 也 是 不 可 预知 的 。 


举 个 例子 ，ARM v6/v7 的 处 理 器 会 对 以 下 指令 顺序 进行 优化 。 


LDR r0, [r1] ; 
STR r2; [r3] 7 


假设 第 一 条 LDR 指 令 导致 缓存 未 命中 ， 这 样 缓存 就 会 填充 行 ， 并 需要 较 多 的 时 钟 周期 才能 完成 。 老 的 ARM 处 理 器 ， 比 如 ARM926EJ-S 会 等 待 这 个 动作 完成 ， 再 执行 下 一 条 STR 指令 。 而 ARM v6/v7 处 理 
会 识别 出 下 一 条 指令 (STR) 且 不 需要 等 待 第 一 条 指令 (LDR) 完成 〈 并 不 依赖 于 r0 的 值 ) ， 即 会 先 执行 STR 指令 ， 而 不 是 等 待 LDR 指 令 完成 。 


对 于 大 多 数 体系 结构 而 言 ， 尽 管 每 个 CPU 都 是 乱 序 执行 ， 但 是 这 一 乱 序 对 于 单 核 的 程序 执行 是 不 可 见 的 ， 因 为 单个 CPU 在 碰 到 依赖 点 (后面 的 指令 依赖 于 前 面 指令 的 执行 结果 ) 的 时 候 会 等 待 ， 所 以 程 


序 员 可 能 感觉 不 到 这 个 乱 序 过程 。 但 是 这 个 依赖 点 等 待 的 过 程 ， 在 SMP 处 理 器 里 面 对 于 其 他 核 是 不 可 见 的 。 比 


若 在 CPUO 上 执行 : 


while (f == 0); 
print x; 


CPU1 上 执行 : 


mx 
oul 
Ros 
~~ 


我 们 不 能 武断 地 认为 CPU0 上 打印 的 x 一 定 等 于 2， 因 为 CPU1 上 即便 “f=1” 编 译 在 “x=42” 后 面 ， 执 行 时 仍然 可 能 先 了 


处 理 器 为 了 解决 多 核 间 一 个 核 的 内 存 行为 对 另外 一 个 核 可 见 的 问题 ， 引 入 了 一 些 内 存 


障 的 指令 。 壁 如 ，ARM 人 处 理 器 的 


DMB (数据 内 存 屏 障 ) : 在 DMB 之 后 的 显 式 内 存 访 问 执行 前 ,保证 所 有 在 DMB 指 令 之 前 的 内 存 访问 完成 ; 


“x=42” 完 成 ， 所 以 这 个 时 候 CPU0 上 打印 的 x 不 一 定 就 是 42。 


屏障 指令 包括 : 


DSB (数据 同步 屏障 ) : 等 待 所 有 在 DSB 指 令 之 前 的 指令 完 

ISB (指令 同步 屏障 ) : Flush 流 水 线 ， 使 得 所 有 1SB 之 后 执行 的 指令 都 是 从 缓存 或 内 存 中 获得 的 。 

Linux 内 核 的 自 旋 锁 、 互 斥 体 等 互 斥 逻 辑 ， 需 要 用 到 上 述 指令 : 在 请 求 获得 锁 时 ， 调 有 
14 行 和 22 行 。 关 于 ldrex 和 strex 指 令 的 作用 ， 会 在 7.3 节 详 述 。 

代码 清单 7.1 基于 内 存 屏 障 指令 的 互 斥 逻辑 

1LOCKED EQU 1 

2UNLOCKED EQU 0 

3lock_mutex 

4 7 互 斥 量 是 否 锁定 ? 

5 LDREX rl, [r0] ; 检查 是 否 锁定 

6 CMP rl, #LOCKED ; 和 "1ocked" 比 较 

7 WFEEQ > 互 斥 量 已 经 锁定 ， 进 入 休眠 

8 BEQ lock mutex ;被 唤醒 ， 重 新 检查 互 斥 量 是 否 锁定 

9 尝试 锁定 互 斥 量 

10 MOV rl, #LOCKED 

11 STREX r2, rl, [r0] ;尝试 锁定 

12 CMP r2, #0x0 7 检查 STR 指令 是 否 完成 

13 BNE lock mutex ; 如 果 失 败 ， ER 

14 DMB ; 进入 被 保护 的 资源 前 需要 隔离 ， 保 证 互 斥 量 已 经 被 更 新 

15 BX lr 

16 


成 (位 于 此 指令 前 的 所 有 显 式 内 存 访问 均 完成 ， 位 于 此 指令 前 


屏障 指令 ; 在 解锁 时 ， 也 需要 调 有 


比如 我 们 通过 writel_relaxed () 写 完 DMA 的 开始 地 址 、 


结束 地 址 、 大 小 之 后 ， 我 们 一 定 要 调 


18 i 保证 资源 的 访问 已 经 结束 

19 MOV r1, #UNLOCKED 7 向 锁定 域 写 "unlocked" 

20 STR rl, [r0] 

21 

22 DSB ; 保证 在 CPU 唤醒 前 完成 互 斥 量 状态 更 

23 SEV i 像 其 他 CPU 发 送 事件 ， 唤 醒 任何 和 erent 

24 

25 BX lr 

前 面 提 到 每 个 CPU 都 是 乱 序 执行 ， 但 是 单个 CPU 在 碰 到 依赖 点 的 时 候 会 等 待 ， 所 以 执行 乱 序 对 生 
赖 关 系 ， 但 是 从 外 设 的 逻辑 角度 来 讲 ， 可 能 需要 固定 的 寄存 器 读 写 顺序 ， 这 个 时 候 ， 也 需要 使 用 CPU 的 内 存 屏障 指令 。 
对 此 进行 了 描述 。 

在 Linux 内 核 中 ， 定 义 了 读 写 屏障 mb () 、 读 屏障 rmb () 、 写 屏障 wmb () 、 以 及 作用 于 寄存 器 读 写 的 _iormb () 、 
writel_relaxed () 和 writel () API 的 区 别 就 体现 在 有 无 屏障 方面 。 

#define readb (c) ({ u8 v = readb relaxed (c); iormb() vs }) 

#define readw (c) ({ ul6 v = readw relaxed(c); — iormb() wy }) 

#tdefine readl (c) ({ u32 |v = readl relaxed(c); _ iormb(); |v; }) 

#define writeb(v,c) ({ iowmb(); writeb relaxed(v,c); }) 

#define writew(v,c) ({ iownmb () ; writew_relaxed(v,c); }) 

#define writel (v,c) ({ __iowmb(); writel_relaxed(v,c); }) 


屏障 指令 


_iowmb () 这 样 的 


。 代 码 清单 7.1 的 汇编 代码 描绘 了 一 个 简单 的 互 


的 所 有 缓存 、 跳 转 预测 和 TLB 维 护 操作 全 部 完成 ) ; 


斥 逻 辑 ， 留 意 其 中 的 第 


站 核 不 一 定 可 见 。 但 是 ， 当 程序 在 访问 外 设 的 寄存 器 时 ， 这 些 寄存 器 的 访问 顺序 在 CPU 的 逻辑 上 构 不 成 依 


内 核 文档 Documentation/memory-barriers.txt 和 Documentation/io_ordering.txt 


屏障 API。 读 写 寄 存 器 的 readl_relaxed () 和 readl () 、 


writel () 来 启动 DMA。 


writel_relaxed(DMA_SRC_REG, 
writel_relaxed(DMA_DST_REG, 
writel relaxed(DMA SIZE REG, 


writel (DMA_ENABLE, 


1); 


蔽 中 断 和 打开 中 断 的 


7.3 “中断 屏 蔽 


在 单 CPU 范围 


中 断 屏蔽 的 使 


local_irg disable () 
critical section 


local irq enable () 


其 底 


方法 为 : 


src_addr) ; 
dst_addr) ; 
size); 


内 避免 竞 态 的 一 种 简单 而 有 效 的 方法 是 在 进入 临界 区 之 前 
功能 ， 这 项 功能 可 以 保证 正在 执行 的 内 核 执行 路 径 不 被 中 断 处 理 程序 所 抢占 ， 防 止 某 些 况 态 条 件 的 发 生 。 具 
内 核 的 进程 调度 等 操作 都 依赖 中 断 来 实现 ， 内 核 抢 占 进程 之 间 的 并 发 也 得 以 避免 了 。 


屏蔽 系统 的 中 断 ， 但 是 在 驱动 编程 中 不 值得 推荐 ， 驱 动 通常 需 


考 


虑 跨 平台 特点 而 不 假定 


己 在 单 核 上 运行 。CPU 一 般 都 具备 


体 而 言 ， 


中 


断 


蔽 将 使 得 中 断 与 进程 之 间 的 并 发 不 再 发 生 ， 而 且 ， 由 于 Linux 


/* 屏蔽 中 断 */ 
/* 临界 区 */ 
/* 开 中 断 */ 


层 的 实现 原理 是 让 CPU 本 身 不 响应 中 断 ， 比 如 ， 对 了 


static inline void arch local irq disable (void) 


{ 


asm volatile ( 


"memory", 


cpsid i 


"oc") ; 


FARM 处 理 器 而 言 ， 其 底 


@ arch_local_irg disable" 


层 的 实现 是 


屏蔽 ARM CPSR 的 | 位 : 


由 于 Linux 的 异步 MO、 进 程 调 


乃至 系统 骨 溃 等 后 果 。 这 就 要 求 在 


蔽 了 中 断 之 后 ， 


话说 ， 驱 动 中 使 


度 等 很 多 重要 操作 都 依赖 


local_irq_disable () 和 local_irq_enable () 都 只 能 禁止 和 使 能 本 CPU 内 的 中 断 ， 
local_irq_disable/enable () 通常 意味 着 一 个 bug) ， 它 适合 与 下 文 将 要 介绍 的 


与 local_irq_disable () 不 同 的 是 ，local_irq_save (flags) 除了 进行 禁止 中 断 的 操作 以 外 ， 还 保存 
作 。 对 于 ARM 处 理 器 而 言 ， 


实 就 是 保存 和 恢复 CPSR。 


如 果 只 是 想 禁止 中 断 的 底 ; 


“部 ， 应 使 


中 断 ， 中 断 对 了 


内 核 的 运行 非常 重要 ， 在 
当前 的 内 核 执行 路 径 应 当 尽快 地 执行 完 临界 区 


因 


local_bh_disable () ， 使 能 被 local_bh_disable () 禁止 的 底 半 部 应 该 调 


区 的 代码 。 


屏蔽 中 断 期 间 所 有 的 中 断 都 无 法 得 至 


Uh, 


此 长 时 间 


屏蔽 中 断 是 很 危险 的 ， 这 有 可 能 造成 数据 丢失 


此 ， 并 不 能 解决 SMP 多 CPU 引发 的 竞 态 。 


Aut, $ 


he PT, 


自 旋 锁 联合 使 用 。 


前 CPU 


local bh enable () 。 


lf 政通 常 不 是 一 种 值得 推荐 的 避免 竞 态 的 方法 ( 换 句 


的 中 断 位 信息 ，local_irq_restore (flags) 进行 的 是 与 local_irq_save (flags) 相反 的 操 


7.4 原子 操作 


原子 操作 可 以 保证 对 一 个 整 型 数据 的 修改 是 排他 性 的 。Linux 内 核 提 供 了 一 系列 函数 来 实现 内 核 中 的 原子 操作 ， 这 些 函 数 又 分 为 两 类 ， 分 别针 对 位 和 整 型 变量 进行 原子 操作 。 位 和 整 型 变量 的 原子 操作 都 
依赖 于 底层 CPU 的 原子 操作 ， 因 此 所 有 这 些 函 数 都 与 CPU 架构 密切 相关 。 对 于 ARM 处 理 器 而 言 ， 底 层 使 用 LDREX 和 STREX 指 令 ， 比 如 atomic_inc () 底层 的 实现 会 调用 到 atomic_ add () ， 其 代码 如 下 : 


static inline void atomic_add(int i, atomic_t *v) 
{ 
unsigned long tmp; 
int result; 
prefetchw (&v->counter) ; 
asm__ __volatile ("@ atomic_add\n" 


"l; Idrex %0, [%3]\n" 
" add 
strex 
teq 
bne 
: "=&r" (result), "=&r" (tmp), "+Qo" (v->counter) 


: "r" (&v->counter), "Ir" (i) 
: "cc"); 


ldrex 指 令 跟 strex 配 对 使 用 ， 可 以 让 总 线 监控 ldrex 到 strex 之 间 有 无 其 他 的 实体 存 取 该 地 址 ， 如 果 有 并 发 的 访问 ， 执 行 strex 指 令 时 ， 第 一 个 寄存 器 的 值 被 设置 为 1 (Non-Exclusive Access) 并 且 存 储 的 
行为 也 不 成 功 ; 如 果 没有 并 发 的 存 取 ，strex 在 第 一 个 寄存 器 里 设置 0 (Exclusive Access) 并 且 存 储 的 行为 也 是 成 功 的 。 本 例 中 ， 如 果 两 个 并 发 实体 同时 调用 ldrex+ strex， 如 图 7.6 所 示 ， 在 T3 时 间 点 
上 ，CPU0 的 strex 会 执行 失败 ， 在 T4 时 间 点 上 CPU1 的 strex 会 执行 成 功 。 所 以 CPU0 和 CPU1 之 间 只 有 CPU1 执 行 成 功 了 ， 执 行 strex 失 败 的 CPU0 的 “teq%1，#0” 判 断 语句 不 会 成 立 ， 于 是 失败 的 CPU0 通 
过 “bne 1b” 再 次 进入 ldrex。ldrex 和 strex 的 这 一 过 程 不 仅 适 用 于 多 核 之 间 的 并 发 ， 也 适用 于 同一 个 核 内 部 并 发 的 情况 。 


CPUI0 


7 了 1 ldrex 
CPU1 


T2 
失败 重 进 循环 ldrex 


strex 


T4 strex 


图 7.6 ldrex 和 strex 指 令 


7.5 Bei 


7.5.1 _ 自 旋 锁 的 使 用 


自 旋 锁 (Spin Lock) 是 一 种 典型 的 对 临界 资源 进行 互 斥 访问 的 手段 ， 其 名 称 来 源 于 它 的 工作 方式 。 为 了 获得 一 个 自 旋 锁 ， 在 某 CPU 上 运行 的 代码 需 先 执行 一 个 原子 操作 ， 该 操作 测试 并 设置 (Test- 
And-Set) 某 个 内 存 变 量 。 由 于 它 是 原子 操作 ， 所 以 在 该 操作 完成 之 前 其 他 执行 单元 不 可 能 访问 这 个 内 存 变 量 。 如 果 测 试 结果 表 明 锁 已 经 空闲 ， 则 程序 获得 这 个 自 旋 锁 并 继续 执行 ， 如果 测 试 结果 表 明 锁 仍 
被 占用 ， 程 序 将 在 一 个 小 的 循环 内 重复 这 个 “测试 并 设置 ”操作 ， 即 进行 所 谓 的 “ 自 旋 ”， 通 俗 地 说 就 是 “在 原 地 打转 ”， 如 图 7.7 所 示 。 当 自 旋 锁 的 持 有 者 通过 重 置 该 变量 释放 这 个 自 旋 锁 后 ， 某 个 等 待 
的 “测试 并 设置 ”操作 向 其 调用 者 报告 锁 已 释放 。 


理解 自 旋 锁 最 简单 的 方法 是 把 它 作为 一 个 变量 看 待 ， 该 变量 把 一 个 临界 区 标记 为 “我 当前 在 运行 ， 请 稍 等 一 会 ”或 者 标记 为 “我 当前 不 在 运行 ， 可 以 被 使 用 ”。 如 果 A 执 行 单元 首先 进入 例 程 ， 它 将 持 
有 自 旋 锁 ; 当 B 执 行 单元 试图 进入 同一 个 例 程 时 ， 将 获知 自 旋 锁 已 被 持 有 ， 需 等 到 A 执 行 单元 释放 后 才能 进入 。 


图 7.7 自 旋 


ARM 处 理 器 内 存 屏障 指令 dmb 和 dsb、wfe 指 令 和 sev 指 令 ， 这 类 似 于 代码 清单 .1 的 逻辑 。 可 以 说 既 要 保证 排他 性 ， 也 要 处 理 好 内 存 


在 ARM 体 系 结构 下 ， 自 旋 锁 的 实现 借用 了 ldrex 指 令 、strex 指 令 、 
障 。 


Linux 中 与 自 旋 锁 相 关 的 操作 主要 有 以 下 4 种 。 


1. 定 义 自 旋 锁 


spinlock_t lock; 


2. 初 始 化 自 旋 锁 


spin lock init (lock) 


该 宏 用 于 动态 初始 化 自 旋 锁 lock。 


3. 获 得 自 旋 锁 


spin_lock (lock) 


于 获得 自 旋 锁 lock， 如 果 能 够 立即 获得 锁 ， 它 就 马上 返回 ， 否 则 ， 它 将 在 那里 自 旋 ， 直 到 该 自 旋 锁 的 保持 者 释放 。 


该 宏 


spin_trylock (lock) 


该 宏 尝试 获得 自 旋 锁 lock， 如 果 能 立即 获得 锁 ， 它 获得 锁 并 返回 true， 否 则 立即 返回 false， 实 际 上 不 再 “在 原 地 打转 ”。 


4 释放 自 旋 锁 


spin_unlock (lock) 


该 宏 释 放 自 旋 锁 lock， 它 与 spin_trylock 或 spin_lock 配 对 使 用 。 


自 旋 锁 一 般 这样 被 使 


/* 定义 一 个 自 旋 锁 */ 
spinlock_t lock; 
spin_lock_init (&lock) ; 


spin_lock (&lock) ; /* 获取 自 旋 锁 ， 保 护 临 界 区 */ 
，。./* 临界 区 */ 
spin unlock (&lock) ; /* 解锁 */ 


有 CPU 和 内 核 可 抢占 的 系统 中 ， 自 旋 锁 持 有 期 间 中 内 核 的 抢占 将 被 禁止 。 由 于 内 核 
自 旋 锁 ， 该 核 上 的 抢占 调度 也 暂时 禁止 了 ， 但 


自 旋 锁 主要 针对 SMP 或 单 CPU 但 内 核 可 抢占 的 情况 ， 对 于 单 CPU 和 内 核 不 支持 抢占 的 系统 ， 自 旋 锁 退化 为 空 操作 。 在 生 
可 抢占 的 单 CPU 系统 的 行为 实际 上 很 类 似 于 SMP 系 统 ， 因 此 ， 在 这 样 的 单 CPU 系 统 中 使 用 自 旋 锁 仍 十 分 必要 。 另 外 ， 在 多 核 SMP 的 情况 下 ， 任 何 一 个 核 拿 到 了 


是 没有 禁止 另外 一 个 核 的 抢占 调度 。 


区 的 时 候 ， 还 可 能 受到 中 断 和 底 半 部 (BH， 稍 后 的 章节 会 介绍 ) 的 影响 。 为 了 防止 这 种 影 
部 local_bh_disable () / 开 底 半 部 


尽管 用 了 自 旋 锁 可 以 保证 临界 区 不 受 别 的 CPU 和 本 CPU 内 的 抢占 进程 打扰 ， 但 是 得 到 锁 的 代码 路 径 在 执行 临界 
响 ， 就 需要 用 到 自 旋 锁 的 衍生 。spin_lock () /spin_unlock () 是 自 旋 锁 机 制 的 基础 ， 它 们 和 关中 断 local_irq_disable () / 开 中 断 local_irq_enable () . XEY 
local_bh_enable () 、 关 中 断 并 保存 状态 字 |local_irq_save () / 开 中 断 并 恢复 状态 字 |local_irq_restore () 结合 就 形成 了 整套 自 旋 锁 机 制 ， 关 系 如 下 : 


spin lock irq() = spin_lock() + local irq disable () 
spin_unlock_irg() = spin unlock() + local irq enable() 

spin_lock_irgsave() = spin_lock() + local irq save() 

spin_unlock_irgrestore() = spin_unlock() + local_irq restore () 

spin lock bh() = spin_lock() + local bh disable() 

spin unlock bh() = spin_unlock() + local bh enable() 


自 旋 锁 的 使 用 系 好 “安全 带 ” 以 避免 突如其来 的 中 断 驶 入 对 系统 造成 的 伤害 。 


spin lock irq () 、spin_lock irqsave () 、spin_lock_bh () 类 似 函 数 会 为 


spin_lock_irqsave () /spin_unlock_irqrestore () ， 在 中 断 上 下 文中 调 上 


在 多 核 编 程 的 时 候 ， 如 果 进 程 和 中 断 可 能 访问 同一 片 临 界 资源 ， 我 们 一 般 需 要 在 进程 上 下 文中 调 


spin_lock () /spin_unlock () ， 如 图 7.8 所 示 。 这 样 ， 在 CPU0 上 ， 无 论 是 进程 上 下 文 ， 还 是 中 断 上 下 文 获得 了 自 旋 锁 ， 此 后 ， 如 果 CPU1 无 论 是 进程 上 下 文 ， 还 是 中 断 上 下 文 ， 想 获得 同一 自 旋 锁 ， 都 必 
须 忙 等 待 ， 这 避免 一 切 核 间 并 发 的 可 能 性 。 同 时 ， 由 于 每 个 核 的 进程 上 下 文 持 有 锁 的 时 候 用 的 是 spin_lock_irqsave () ， 所 以 该 核 上 的 中 断 是 不 可 能 进入 的 ， 这 避免 了 核 内 并 发 的 可 能 性 。 


驱动 工程 师 应 谨慎 使 用 自 旋 锁 ,而 且 在 使 用 中 还 要 特别 注意 如 下 几 个 问题 。 


1) 自 旋 锁 实际 上 是 忙 等 锁 ， 当 锁 不 可 用 时 ，CPU 一 直 循环 执行 “测试 并 设置 ”该 锁 直 到 可 用 而 取得 该 锁 ，CPU 在 等 待 自 旋 锁 时 不 做 任何 有 用 的 工作 ， 仅 仅 是 等 待 。 因 此 ， 只 有 在 占用 锁 的 时 间 极 短 的 
情况 下 ， 使 用 自 旋 锁 才 是 合理 的 。 当 临界 区 很 大 ， 或 有 共享 设备 的 时 候 ， 需 要 较 长 时 间 占 用 锁 ， 使 用 自 旋 锁 会 降低 系统 的 性 能 。 


2) 自 旋 锁 可 能 导致 系统 死 锁 。 引 发 这 个 问题 最 常见 的 情况 是 递归 使 用 一 个 自 旋 锁 ， 即 如 果 一 个 已 经 拥有 某 个 自 旋 锁 的 CPU 想 第 二 次 获得 这 个 自 旋 锁 ， 则 该 CPU 将 死 锁 。 


CPUO CPU1 


= = 
7 ae 
= zs. 


图 7.8” 自 旋 锁 的 使 用 实例 


3) 在 自 旋 锁 锁定 期 间 不 能 调用 可 能 引起 进程 调度 的 函数 。 如 果 进 程 获得 自 旋 锁 之 后 再 阻塞 ， 如 调用 copy from_user () 、copy to_user () 、kmalloc () 和 msleep () 等 函数 ， 则 可 能 导致 内 核 的 
崩溃 。 


4) 在 单 核 情况 下 编程 的 时 候 ， 也 应 该 认为 自己 的 CPU 是 多 核 的 ， 驱 动 特别 强调 跨 平 台 的 概念 。 比 如 ， 在 单 CPU 的 情况 下 ， 若 中 断 和 进程 可 能 访问 同一 临界 区 ， 进 程 里 调用 spin_lock_irqsave () 是 安 
全 的 ， 在 中 断 里 其 实 不 调用 spin_lock () 也 没有 问题 ， 因 为 spin_lock_irqsave () 可 以 保证 这 个 CPU 的 中 断 服务 程序 不 可 能 执行 。 但 是 ， 若 CPU 变 成 多 核 ，spin_lock_irqsave () 不 能 屏蔽 另外 一 个 核 的 中 
断 ， 所 以 另外 一 个 核 就 可 能 造成 并 发 问题 。 因 此 ， 无 论 如 何 ， 我 们 在 中 断 服务 程序 里 也 应 该 调用 spin_lock () 。 


代码 清单 7.3 给 出 了 自 旋 锁 的 使 用 例子 ， 它 被 用 于 实现 使 得 设备 只 能 被 最 多 1 个 进程 打开 ， 功 能 和 代码 清单 与 7.2 类 似 。 
代码 清单 7.3 ”使 用 自 施 锁 使 设备 只 能 被 一 个 进程 打开 


int xxx count = 0;/* 定义 文件 打开 次 数 计数 */ 


static int xxx_open(struct inode *inode, struct file *filp) 
{ 


spinlock (&xxx lock); 
if (xxx count) {/* 已 经 打开 */ 
spin_unlock (&xxx_lock) ; 
9 return -EBUSY; 

10} 
11 xxx_countt++;/* 增加 使 用 计数 */ 
12 spin unlock(&xxx lock); 
13 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/0EBPS/Text/... 
14 return 0;/* 成 功 */ 


1 
2 
3 
4 
5 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/0EBPS/Text/... 
6 
7 
8 


17static int xxx_release(struct inode *inode, struct file *filp) 


19 http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
20  spinlock (&xxx_lock) ; 

21 xxx_count--;/* 减少 使 用 计数 */ 

22 spin unlock(&xxx lock); 


24 return 0; 
25} 
7.6 信号 量 


信号 量 (Semaphore) 是 操作 系统 中 最 典型 的 用 于 同步 和 互 斥 的 手段 ， 信 号 量 的 值 可 以 是 0、1 或 者 n。 信 号 量 与 操作 系统 中 的 经 典 概念 PV 操 作对 应 。 


P (S) : @ 将 信号 量 S 的 值 碱 1， 即 S=S-1; 
@ 如 果 S>0， 则 该 进程 继续 执行 ; 否则 该 进程 置 为 等 待 状态 ， 排 入 等 待 队 列 。 
V (S) : @ 将 信号 量 S 的 值 加 1， 即 S=S+1; 


@ 如 果 S>0， 唤 醒 队 列 中 等 待 信号 量 的 进程 。 


Linux 中 与 信号 量 相关 的 操作 主要 有 下 面 几 种 。 


1. 定 义 信号 量 


下 列 代码 定义 名 称 为 sem 的 信号 量 : 


struct semaphore sem; 


2. 初 始 化 信号 量 


void sema_init (struct semaphore *sem, int val); 


该 函数 初始 化 信号 量 ， 并 设置 信号 量 sem 的 值 为 val。 


void down(struct semaphore * sem); 


该 函数 用 于 获得 信号 量 sem， 它 会 导致 睡眠 ， 因 此 不 能 在 中 断 上 下 文中 使 用 。 


int down_interruptible(struct semaphore * sem); 


该 函数 功能 与 down 类 似 ， 不 同 之 处 为 ， 因 为 down () 进入 睡眠 状态 的 进程 不 能 被 信号 打 断 ， 但 因为 down_interruptible () 进入 睡眠 状态 的 进程 能 被 信号 打 断 ， 信 号 也 会 导致 该 函数 返回 ， 这 时 候 函 
数 的 返回 值 非 0。 


int down_trylock(struct semaphore * sem); 


该 函数 尝试 获得 信号 量 sem， 如 果 能 够 立刻 获得 ， 它 就 获得 该 信号 量 并 返回 0， 和 否则 ， 返 回 非 0 值 。 它 不 会 导致 调用 者 睡眠 ， 可 以 在 中 断 上 下 文中 使 用 。 


在 使 用 down_interruptible () 获取 信号 量 时 ， 对 返回 值 一 般 会 进行 检查 ， 如 果 非 0， 通 常 立即 返回 -ERESTARTSYS， 如 : 


if (down_interruptible (&sem) ) 
return -ERESTARTSYS; 


4. 释 放 信号 量 


void up(struct semaphore * sem); 


该 函数 释放 信号 量 sem ， 唤 醒 等 待 者 。 


它 的 使 用 方式 和 自 旋 锁 类似 。 与 自 旋 锁 相同 ， 只 有 得 到 信号 量 的 进程 才能 执行 临界 区 代码 。 但 是 ， 与 自 旋 锁 不 同 的 是 ， 当 获取 不 到 信号 量 时 ， 进 程 
号 量 一 般 这 样 被 使 用 : 


作为 一 种 可 能 的 互 斥 手段 ， 信 号 量 可 以 保护 临界 区 
不 会 原 地 打转 而 是 进入 休 眼 等 待 状 态 。 用 作 互 斥 时 ， 信 


进程 P1 


P (S); 


临界 区 ; 
V (S); 


进程 P2 


P (S); 


临界 区 ; 
V (S); 


由 于 新 的 Linux 内 核 倾 向 于 直接 使 用 mutex 作 为 互 斥 手 段 ， 信 号 量 用 作 互 斥 不 再 被 推荐 使 用 。 


信号 量 也 可 以 用 于 同步 ， 


一 个 进程 A 执 行 down () 等 待 信号 量 ， 另 外 一 个 进程 B 执 行 up () 释放 信号 量 ， 这 样 进程 A 就 同步 地 等 待 了 进程 B。 其 过 程 类 似 : 


进程 Pn 


eeeeee 


P (S); 


临界 区 ; 
V (S); 


进程 P2 
P(S); 


进程 P1 
代码 区 C1; 
V(S) 


代码 区 C2; 


此 外 ， 对 于 关心 具体 数值 的 生产 者 /消费 者 问题 ， 使 用 信号 量 则 较为 合适 。 因 为 生产 者 /消费 者 问题 也 是 一 种 同步 问题 。 


管 信号 量 已 经 可 以 实现 互 斥 的 功能 ， 但 是 “正宗 ”的 mutex 在 Linux 内 核 中 还 是 真实 地 存在 着 。 


下 面 代码 定义 了 名 为 my_mutex 的 互 斥 体 并 初始 化 它 : 


struct mutex my_mutex; 
mutex_init (&my_mutex) ; 


于 获取 互 斥 体 : 


下 面 的 两 个 函数 


void mutex_lock(struct mutex *lock); 
int mutex_lock_interruptible (struct mutex *lock) ; 
int mutex_trylock(struct mutex *lock); 


mutex lock () 4smutex_lock_interruptible () 的 区 别 和 down () Sdown_trylock () 的 区 别 完全 一 致 ， 前 者 引起 的 睡眠 不 能 被 信号 打 断 ， 而 后 者 可 以 。mutex_trylock () 
mutex， 获 取 不 到 mutex 时 不 会 引起 进程 睡眠 。 


下 列 函 数 用 于 释放 互 斥 体 : 


于 尝试 获得 


void mutex_unlock(struct mutex *lock); 


于 互 斥 的 场合 完全 一 样 : 


mutex 的 使 用 方法 和 信号 量 


struct mutex my_mutex; 
mutex_init (&my_mutex) ; 
mutex lock (&my_ mutex) ; 


http:7/www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


mutex_unlock (&my_mutex) 7 


/* 定义 mutex */ 

/* 初始 化 mutex */ 

/* 获取 mutex */ 
/* 临界 资源 */ 


/* 释放 mutex */ 


自 旋 锁 和 互 斥 体 都 是 解决 互 斥 问题 的 基本 手段 ， 面 对 特定 的 情况 ， 应 该 如 何 取舍 这 两 种 手段 呢 ? 选 择 的 依据 是 临界 区 的 性 质 和 系统 的 特点 。 

从 严格 意义 上 说 ， 互 斥 体 和 自 旋 锁 属于 不 同 层次 的 互 斥 手段 ， 前 者 的 实现 依赖 于 后 者 。 在 互 斥 体 本 身 的 实现 上 ， 为 了 保证 互 斥 体 结构 存 取 的 原子 性 ， 需 要 自 旋 锁 来 豆 斥 。 所 以 自 旋 锁 属于 更 底层 的 手 
段 。 

互 斥 体 是 进程 级 的 ， 用 于 多 个 进程 之 间 对 资源 的 互 斥 ， 虽 然 也 是 在 内 核 中 ， 但 是 该 内 核 执行 路 径 是 以 进程 的 身份 ， 代 表 进 程 来 争夺 资源 的 。 如 果 竞 争 失败 ， 会 发 生 进程 上 下 文 切换 ， 当 前 进程 进入 睡眠 
状态 ，CPU 将 运行 其 他 进程 。 鉴 于 进程 上 下 文 切换 的 开销 也 很 大 ， 因 此 ， 只 有 当 进 程 占用 资源 时 间 较 长 时 ， 用 互 斥 体 才 是 较 好 的 选择 。 

当 所 要 保护 的 临界 区 访问 时 间 比 较 短 时 ， 用 自 旋 锁 是 非常 方便 的 ， 因 为 它 可 节省 上 下 文 切换 的 时 间 。 但 是 CPU 得 不 到 自 旋 锁 会 在 那里 空转 直到 其 他 执行 单元 解锁 为 止 ， 所 以 要 求 锁 不 能 在 临界 区 里 长 时 
间 停 留 ， 否 则 会 降低 系统 的 效率 。 

由 此 ， 可 以 总 结 出 自 旋 锁 和 互 斥 体 选 用 的 3 项 原则 。 

1) 当 锁 不 能 被 获取 到 时 ， 使 用 互 斥 体 的 开销 是 进程 上 下 文 切换 时 间 ， 使 用 自 旋 锁 的 开销 是 等 待 获取 自 旋 锁 (由 临界 区 执行 时 间 决 定 ) 。 若 临界 区 比较 小 ， 宜 使 用 自 旋 锁 ， 若 临界 区 很 大 ， 应 使 用 互 斥 
体 。 

2) 互 斥 体 所 保护 的 临界 区 可 包含 可 能 引起 阻塞 的 代码 ， 而 自 旋 锁 则 绝对 要 避免 用 来 保护 包含 这 样 代码 的 临界 区 。 因 为 阻塞 意味 着 要 进行 进程 的 切换 ， 如 果 进 程 被 切换 出 去 后 ， 另 一 个 进程 企图 获取 本 自 


旋 锁 ， 死 锁 就 会 发 生 。 


78 完成 量 
Linux 提 供 了 完成 量 (Completion， 关 于 这 个 名 词 ， 至 今 没 有 好 的 翻译 ， 笔 者 将 其 译 为 “完成 量 ”) ， 它 用 于 一 个 执行 单元 等 待 另 一 个 执行 单元 执行 完 革 事 。 


1 


3) 互 斥 体 存 在 于 进程 上 下 文 ， 
mutex trylock () 方式 进行 ， 不 能 获取 就 立即 返回 


使 用 互 斥 体 ， 则 只 能 通过 


， 则 在 互 斥 体 和 自 旋 锁 之 间 只 能 选择 自 旋 锁 。 当 然 ， 如 果 一 定 


因此 ， 如 果 被 保护 的 共享 资源 需要 在 中 断 或 软 中 断 情况 下 使 
以 避免 阻塞 。 


Linux 中 与 完成 量 相关 的 操作 主要 有 以 下 4 种 。 


.定义 完成 量 


下 列 代码 定义 名 为 my_completion 的 完成 量 : 


struct completion my_completion; 


2. 初 始 化 完成 量 


下 列 代码 初始 化 或 者 重新 初始 化 my_completion 这 个 完成 量 的 值 为 0 ( 即 没有 完成 的 状态 ) : 


init_completion (&my_completion) ; 
reinit_completion (&my_completion) 


3. 等 待 完成 量 


下 列 函 数 用 于 等 待 一 个 完成 量 被 唤醒 : 


void wait_for_completion(struct completion *c); 


4. 唤 醒 完成 量 


下 面 两 个 函数 用 于 唤醒 完成 量 : 


void complete (struct completion *c); 
void complete_all (struct completion *c); 


前 者 只 唤醒 一 个 等 待 的 执行 单元 ， 后 者 释放 所 有 等 待 同一 完成 量 的 执行 单元 。 


完成 量 用 于 同步 的 流程 一 般 如 下 : 


进程 P1 进程 P2 


代码 区 C1; wait_for_completion(&done); 


complete(&done); 


代码 区 C2; 


7.9 增加 并 发 控制 后 的 globalmem 的 设备 驱动 


在 globalmem () 的 读 写 函 数 中 ， 由 于 要 调用 copy from_user () 、copy to_user () 这 些 可 能 导致 阻塞 的 函数 ， 


驱动 工程 师 习 惯 将 某 设备 所 使 用 的 自 旋 锁 、 互 斥 体 等 辅助 手段 也 放 在 设备 结构 中 ， 


清单 7.5 所 示 。 


代码 清单 7.4 增加 并 发 控制 后 的 globalmem 设 备 结构 体 


此 不 能 使 用 自 旋 锁 ， 宜 使 用 互 斥 体 。 


因此 ， 可 如 代码 清和 


7.4 那 样 修改 9 


obalmem_dev 结 构 体 的 定义 ， 并 在 模块 初始 化 函数 中 初始 化 这 个 信号 量 ， 如 代码 


lstruct globalmem_dev { 
struct cdev cdev; 


3 unsigned char mem[GLOBALMEM_SIZE] ; 
4 struct mutex mutex; 
5}; 


代码 清单 7.5 “增加 并 发 控制 后 的 globalmem 设 备 驱动 模块 加 载 函数 


lstatic int _ init globalmem_init (void) 
2{ 


3 int ret; 

4 dev_t devno = MKDEV(globalmem major, 0); 

5 

6 if (globalmem_major) 

7 ret = register _chrdev_region(devno, 1, "globalmem") ; 
8 else { T T 

9 ret = alloc_chrdev_region(&devno, 0, 1, "globalmem") ; 
10 globalmem_major = MAJOR (devno) ; 

11 

12 if (ret < 0) 

13 return ret; 

14 


15 globalmem_devp = kzalloc (sizeof (struct globalmem_dev), GFP_KERNEL) ; 


16 if (!globalmem_devp) { 


17 ret = -ENOMEM; 

18 goto fail_malloc; 
让 水 

20 


21 mutex init (&globalmem_devp->mutex) ; 
22 globalmem setup_cdev (globalmem devp, 0); 
23 return 0; 


25 fail_malloc: 

26 unregister_chrdev_region (devno, 1); 
27 return ret; ~ 

28} 

29module_init (globalmem_init); 


在 访问 globalmem_dev 中 的 共享 资源 时 ， 需 先 获取 这 个 互 斥 体 ， 访 问 完成 后 ， 随 即 释放 这 个 互 斥 体 。 驱 动 中 新 的 globalmem 读 、 写 操作 如 代码 清单 7.6 所 示 。 


代码 清单 7.6 ”增加 并 发 控制 后 的 globalmem 读 、 写 操作 


lstatic ssize t globalmem_read(struct file *filp, char _ user * buf, size_t size, 


2 loff t * ppos) 

3{ ~ 

unsigned long p = *ppos; 

unsigned int count = size; 

int ret = 0; 

struct globalmem_dev *dev = filp->private_data; 


COBIAUA 


if (p >= GLOBALMEM SIZE) 
return 0; 


m 


11 if (count > GLOBALMEM SIZE - p) 


12 count = GLOBALMEM SIZE - p; 

13 

14 mutex_lock (&dev->mutex) ; 

15 

16 if (copy to user (buf, dev->mem + p, count)) { 
17 ret = -EFAULT; 

18 } else { 

19 *ppos += count; 

20 ret = count; 

21 

22 printk (KERN_INFO "read %u bytes(s) from Slu\n", count, p); 
23 } 

24 

25 mutex_unlock (&dev->mutex) ; 

26 

27 return ret; 

28} 

29 

30static ssize t globalmem write (struct file *filp, const char __user * buf, 
31 size_t size, loff_t * ppos) 
32{ 


33 unsigned long p = *ppos; 

34 unsigned int count = size; 

35 int ret = 0 

36 struct globalmem_dev *dev = filp->private_data; 


38 if (p >= GLOBALMEM SIZE) 

39 return 0; 

40 if (count > GLOBALMEM SIZE - p) 

41 count = GLOBALMEM SIZE - p; 

42 

43 mutex_lock (&dev->mutex) ; 

44 

45 if (copy_from user (dev->mem + p, buf, count) ) 
46 ret = -EFAULT; 

47 else { 

48 *ppos += count; 

49 ret = count; 

50 

51 printk (KERN_INFO "written %u bytes(s) from %lu\n", count, piy 
52 } 

53 

54 mutex_unlock (&dev—>mutex) ; 

55 

56 return ret; 

57} 


代码 第 14 行 和 第 43 行 用 于 获取 互 斥 体 ， 代 码 第 25 和 54 行 用 于 在 对 临界 资源 访问 结束 后 释放 信号 量 。 


除了 globalmem 的 读 、 写 操作 之 外 ， 如 果 在 读 、 写 的 同时 ， 另 一 个 执行 单元 执行 MEM_CLEAR IO 控制 命令 ， 也 会 导致 全 局 内 存 的 混乱 ， 因 此 ，globalmem ioct| () 函数 也 需 被 
所 示 。 


写 ， 如 代码 清单 7.7 


代码 清单 7.7 ”增加 并 发 控制 后 的 globalmem 设 备 驱动 ioctl () 函数 


lstatic long globalmem_ioctl(struct file *filp, unsigned int cmd, 
2 unsigned long arg) 


3{ 
4 struct globalmem_dev *dev = filp->private_ data; /* heet Alli ai 
5 

switch (cmd) { 


6 
7 case MEM CLEAR: 
8 mutex lock (&dev->mutex) ; 


9 memset (dev->mem, 0, GLOBALMEM SIZE); 
10 mutex _unlock (&dev->mutex) ; 

Ti 

12 printk (KERN INFO "globalmem is set to zero\n"); 
13 break; T 

14 

15 default: 

16 return -EINVAL; 

alg a 

18 

19 return 0; 

20} 


增加 并 发 控制 后 globalmem 的 完整 驱动 位 于 本 书 虚 拟 机 的 例子 /kernel/drivers/globalmem/ch7 目 录 下 ， 其 使 用 方法 与 第 6 章 globalmem 驱 动 在 用 户 空间 的 验证 一 致 。 


并 发 和 竞 态 广泛 存在 ， 中 断 屏蔽 、 原 子 操作 、 自 旋 锁 和 互 斥 体 都 是 解决 并 发 问题 的 机 制 。 中 断 屏 项 很 少 单独 被 使 用 ， 原 子 操作 只 能 针对 整数 进行 ， 


此 自 旋 锁 和 互 斥 体 应 用 最 为 广泛 。 


自 旋 锁 会 导致 死 循 环 ， 锁 定期 间 不 允许 阻塞 ， 因 此 要 求 锁定 的 临界 区 小 。 互 斥 体 允 许 临 界 区 阻塞 ， 可 以 适用 于 临界 区 大 的 情况 。 


第 8 章 Linux 设备 驱动 中 的 阻塞 与 非 阻 塞 VO 


本 章 导 读 


阻塞 和 非 阻塞 VO 是 设备 访问 的 两 种 不 同 模式 ， 驱 动 程序 可 以 灵活 地 支持 这 两 种 用 户 空间 对 设备 的 访问 方式 。 


8.1 节 讲述 了 阻塞 和 非 阻塞 VO 的 区 别 ， 并 讲解 了 实现 阻塞 VO 的 等 待 队列 机 制 ， 以 及 在 globalfifo 设 备 驱动 中 增加 对 阻塞 VO 支 持 的 方法 ， 并 进行 了 


户 空间 的 验证 。 


8.2 节 讲述 了 设备 驱动 轮 询 (Poll) 操作 的 概念 和 编程 方法 ， 轮 询 可 以 帮助 用 户 了 解 是 否 能 对 设备 进行 无 阻塞 访问 。 


8.3 节 讲解 在 globalfifo 中 增加 轮 询 操作 的 方法 ， 并 使 用 select、epoll 在 用 户 空间 进行 了 验证 。 


8.1 ”阻塞 与 非 阻塞 |/O 


E 眠 状态 ， 被 从 调度 器 的 运行 队列 移 走 ， 直 到 等 待 的 条 件 被 满足 。 而 非 阻塞 操 


户 又 希望 以 阻塞 的 方式 访问 设备 ， 驱 动 程序 应 在 设备 驱动 的 xxx_read () 、 
户 并 没有 感知 到 ; 若 用 户 以 非 阻塞 的 方式 访问 设备 


值 。 


么 不 停 地 查询 ， 直 至 可 以 进行 操作 为 止 。 

时 ， 若 设备 的 资源 不 能 获取 ， 而 | 

e () 等 调用 才 返 回 ， 整 个 过 程 仍然 进行 了 正确 的 设备 访问 ， 

El, read () 、write () 等 系统 调用 也 随即 被 返回 ， 应 用 程序 收 到 -EAGAIN 返 回 
入 休眠 状态 ， 所 以 必须 确保 有 一 个 地 方 能 够 唤醒 休眠 的 进程 ， 否 则 ， 进 程 就 真 


么 放弃 ， 
程序 进行 read () 、write () 等 系统 调 有 


阻塞 操作 是 指 在 执行 设备 操作 时 ， 若 不 能 获得 资源 ， 则 挂 起 进程 直到 满足 可 操作 的 条 件 后 再 进行 操作 。 被 挂 起 的 进程 进入 


行 设备 操作 时 ， 并 不 挂 起 ， 它 


作 的 进程 在 不 能 
驱动 程序 通常 需要 提供 这 样 的 能 力 : 当 应 

xxx write () 等 操作 中 将 进程 阻塞 直到 资源 可 以 获取 ， 此 后 ， 应 用 程序 的 read () 、writ 
当 设 备 资源 不 可 获取 时 ， 设 备 驱动 的 xxx_read () 、xxx_write () 等 操作 应 立即 返 
如 图 8.1 所 示 ， 在 阻塞 访问 时 ， 不 能 获取 资源 的 进程 将 进入 休眠 ， 它 将 CPU 资源 “礼让 

的 “寿终正寝 ”了 。 响 醒 进 程 的 地 方 最 大 可 能 发 生 在 中 断 里 面 ， 因 为 在 硬件 资源 获得 的 同 

read()/write() 返回 读 写 的 

A 


系统 调用 
用 户 空间 应 用 


”给 其 他 进程 。 因 为 阻塞 的 进程 会 进 
时 往往 伴随 着 一 个 中 断 。 而 非 阻塞 的 进程 则 不 断 尝 试 ， 直 到 可 以 进行 VO。 


文件 , J 


内 核 空间 驱动 
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图 8.1 阻塞 与 非 阻塞 I/O 

O_NONBLOCK 标 记 打开 文件 。 


前 者 在 打开 文件 的 时 候 没有 O_NONBLOCK 标 记 ， 后 者 使 


口 一 个 字符 的 代码 。 


代码 清单 8.1 和 8.2 分 别 演示 了 以 阻塞 和 非 阻塞 方式 读 取 和 
一 个 字符 


代码 清单 8.1 ”阻塞 地 读 串 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


char buf; 
fd = open("/dev/ttyS1", O_RDWR); 
res = read(fd, &buf, 1); /* 当 串 口上 有 输入 时 才 返 回 */ 


if (res==1) 
printf ("%c\n", buf); 


一 个 字符 


代码 清单 8.2” 非 阻塞 地 读 串 


char buf; 
fd = open("/dev/ttyS1", O_RDWR| O_NONBLOCK) ; 
1 
/* 串口 上 无 输入 也 返回 ， 因 此 要 循环 尝试 读 取 囊 口 */ 


P 
while (read (fd, &buf, 1) !=1) 


continue; 
除了 在 打开 文件 时 可 以 指定 阻塞 还 是 非 阻塞 方式 以 外 ， 在 文件 打开 后 ， 也 可 以 通过 ioctl () 和 fcntl () 改变 读 写 的 方式 ， 如 从 阻塞 变更 为 非 阻塞 或 者 从 非 阻 塞 变更 为 阻塞 。 例 如 ， 调 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/0EBPS/Text/... 


printf ("%c\n", buf); 


fentl (fd, F_SETFL, O NONBLOCK) 可 以 设置 fdq 对 应 的 MO 为 非 阻 塞 。 


8.2 ” 轮 询 操作 


select () 和 poll () 系统 调用 查询 是 否 可 对 设备 进行 无 阻塞 的 访问 。 


8.2.1 轮 询 的 概念 与 作用 
户 程序 中 ，select () 和 poll () 也 是 与 设备 阻塞 与 非 阻塞 访问 息息相关 的 论题 。 使 用 非 阻塞 /O 的 应 用 程序 通常 会 使 
展 的 poll () 。 


在 


select () 和 poll () 系统 调用 最 终 会 使 设备 驱动 中 的 poll () 函数 被 执行 ， 在 Linux2.5.45 内 核 中 还 引入 了 epoll () , RP 
lect () 和 poll () 系统 调用 的 本 质 一 样 ， 前 者 在 BSD UNIX 中 引入 ， 后 者 在 System V 中 引入 。 


wn 
oO 


8.3 ”支持 轮 询 操作 的 globalfifo 驱 动 


8.3.1 在 globalfifo 驱 动 中 增加 轮 询 操作 


在 globalfifo 的 poll () 函数 中 ， 首 先 将 设备 结构 体 中 的 r wait 和 w_wait 等 待 队列 头 部 添加 到 等 待 列 表 中 (意味 着 因 调用 select 而 阻塞 的 进程 可 以 被 " wait 和 w_wait 唤 醒 ) ， 然 后 通过 判断 dev- 
>current len 是否 等 于 0 来 获得 设备 的 可 读 状 态 ， 通 过 判断 dev-> current_len 是 否 等 于 GLOBALFIFO_SIZE 来 获得 设备 的 可 写 状 态 ， 如 代码 清单 8.9 所 示 。 


代码 清单 8.9 globalfifo 设 备 驱动 的 poll () 函数 


lstatic unsigned int globalfifo_poll(struct file *filp, poll_table * wait) 


2{ 

3 unsigned int mask = 0; 

4 struct globalfifo_dev *dev = filp->private_data; 
5 

6 mutex_lock (&dev->mutex) ;; 

7 

8 poll wait (filp, &dev->r_wait, wait); 

9 poll wait (filp, &dev->w_wait, wait); 

10 

11 if (dev->current len != 0) { 

12 mask |= POLLIN | POLLRDNORM; 

13 } 

14 

15 if (dev->current_len != GLOBALFIFO_SIZE) { 
16 mask |= POLLOUT | POLLWRNORM; 

i7 让 

18 


19 mutex_unlock (&dev->mutex) ; ; 
20 return mask; 


注意 ， 要 把 globalfifo_pol 赋 给 globalfifo_ fops 的 poll 成 员 : 


static const struct file operations globalfifo fops = { 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
-poll = globalfifo poll, z 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


li 


阻塞 与 非 阻塞 访问 是 |/O 操 作 的 两 种 不 同 模式 ， 前 者 在 暂时 不 可 进行 |/O 操 作 时 会 让 进程 睡眠 ， 后 者 则 不 然 。 


在 设备 驱动 中 阻塞 VO 一 般 基于 等 待 队列 或 者 基于 等 待 队列 的 其 他 Linux 内 核 APl 来 实现 ， 等 待 队列 可 用 于 同步 驱动 中 事件 发 生 的 先后 顺序 。 使 用 非 阻 塞 VO 的 应 用 程序 也 可 借助 轮 询 函数 来 查询 设备 是 否 
能 立即 被 访问 ， 空间 调用 select () 、poll () 或 者 epoll 接 口 ， 设 备 驱动 提供 poll () 函数 。 设 备 驱动 的 poll () 本 身 不 会 阻塞 ， 但 是 与 poll () 、select () 和 epoll 相 关 的 系统 调用 则 会 阻塞 地 等 待 至 
少 一 个 文件 描述 符 集合 可 访问 或 超时 。 


第 9 章 ”Linux 设 备 驱动 中 的 异步 通知 与 异步 /O 


本 章 导 读 


在 设备 驱动 中 使 用 异步 通知 可 以 使 得 在 进行 对 设备 的 访问 时 ， 由 驱动 主动 通知 应 用 程序 进行 访问 。 这 样 ， 使 用 非 阻 塞 VO 的 应 用 程序 无 须 轮 询 设备 是 否 可 访问 ， 而 阻塞 访问 也 可 以 被 类 似 “ 中 断 ” 的 异步 
通知 所 取代 。 


除了 异步 通知 以 外 ， 应 用 还 可 以 在 发 起 /O 请 求 后 ， 立 即 返 回 。 之 后 ， 再 查询 MO 完成 情况 ， 或 者 MO 完成 后 被 调 回 。 这 个 过 程 叫 作 异 步 /O。 


9.1 节 讲解 了 异步 通知 的 概念 与 作用 。 


9.2 节 讲解 了 Linux 异 步 通知 的 编程 方法 。 


9.3 节 给 出 了 增加 异步 通知 的 globalfifo 驱 动 及 其 在 用 户 空间 的 验证 。 


9.4 节 则 讲解 了 Linux 基 于 C 库 的 异步 MO 和 内 核 本 身 异 步 /O 的 用 户 空间 编程 接口 ， 以 及 驱动 如 何 支 持 AIO。 


9.1 “异步 通知 的 概念 与 作用 


阻塞 与 非 阻 塞 访问 、poll () 函数 提供 了 较 好 的 解决 设备 访问 的 机 制 ， 但 是 如 果 有 了 异步 通知 ， 整 套 机 制 则 更 加 完整 了 。 


步 通知 的 意思 是 : 一 旦 设备 就 绪 ， 则 主动 通知 应 用 程序 ， 这 样 应 用 程序 根本 就 不 需要 查询 设备 状态 ， 这 一 点 非常 类 似 于 硬件 上 “中 断 ” 的 概念 ， 比 较 准确 的 称谓 是 “信号 驱动 的 异步 /O”。 信 和 号 是 在 
软件 层次 上 对 中 断 机 制 的 一 种 模拟 ， 在 原理 上 ， 一 个 进程 收 到 一 个 信号 与 处 理 器 收 到 一 个 中 断 请 求 可 以 说 是 一 样 的 。 信 号 是 异步 的 ， 一 个 进程 不 必 通 过 任何 操作 来 等 待 信号 的 到 达 ， 事 实 上 ， 进 程 也 不 知道 
信号 到 底 什么 时 候 到 达 。 


阻塞 /O 意 味 着 一 直 等 待 设备 可 访问 后 再 访问 ， 非 阻塞 VO 中 使 用 poll () 意味 着 查询 设备 是 否 可 访问 ， 而 异步 通知 则 意味 着 设备 通知 用 户 自身 可 访问 ， 之 后 用 户 再 进行 MO 处 理 。 由 此 可 见 ， 这 几 种 MO 
方式 可 以 相互 补充 。 


司 9.1 呈 现 了 阻塞 VO， 结 合 轮 询 的 非 阻塞 VO 及 基于 SIGIO 的 异步 通知 在 时 间 先 后 顺序 上 的 不 同 。 
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图 9.1 阻塞 、 结 合 轮 询 的 非 阻塞 I/O 和 异步 通知 的 区 别 


这 里 要 强调 的 是 : 阻塞 、 非 阻塞 VO、 异 步 通知 本 身 没 有 优 劣 ， 应 该 根据 不 同 的 应 用 场景 合理 选择 。 


9.2 ”Linux 异 步 通知 编程 


9.2.1 Linux 信 和 号 


使 用 信号 进行 进程 间 通 信 (IPC) 是 UNIX 中 的 一 种 传统 机 制 ，Linux 也 支持 这 种 机 制 。 在 Linux 中 ， 异 步 通 知 使 用 信号 来 实现 ，Linux 中 可 用 的 信号 及 其 定义 如 表 9.1 所 示 。 


表 9.1 Linux 信 号 及 其 定义 


信 号 含义 
SIGHUP 挂 起 

SIGINT 终端 中 断 

SIGQUIT 终端 退出 

SIGILL 无 效 命令 

SIGTRAP 跟踪 陷阱 

SIGIOT lt | IOT 陷阱 

SIGBUS BUS 错误 

SIGFPE 8 | 浮 点 异常 

SIGKILL 9 | BAIE (不 能 被 捕获 或 忽略 ) 
SIGUSR1 用 户 定义 的 信号 1 

SIGSEGV 无 效 的 内 存 段 处 理 

SIGUSR2 12 用 户 定义 的 信号 

SIGPIPE 13 六 关闭 管道 的 写 7 已 经 发 生 
SIGALRM 计时 器 到 期 

SIGTERM 15 终止 


信 号 O E 
SIGSTKFLT 
SIGCHLD 17 
SIGTSTP 
SGTIN 
SIGURG 
SIGVTALRM 
SIGWINCH 
SIGPWR 30 


除了 SIGSTOP 和 SIGKILL 两 个 信号 外 ， 进 程 能 够 忽略 或 捕获 其 他 的 全 部 信号 。 一 个 信号 被 捕获 的 意思 是 当 一 个 信号 到 达 时 有 相应 的 代码 处 理 它 。 如 果 一 个 信号 没有 被 这 个 进程 所 捕获 ， 内 核 将 采用 默认 


行为 处 理 。 


9.3 ”支持 异步 通知 的 globalfifo 驱 动 


9.3.1 在 globalfifo 驱 动 中 增加 异步 通知 


首先 ， 参 考 代码 清单 9.3， 应 该 将 异步 结构 体 指针 添加 到 globalfifo_dev 设 备 结构 体内 ， 如 代码 清单 9.7 所 示 。 


代码 清单 9.7 ”增加 异步 通知 后 的 globalfifo 设 备 结构 体 


lstruct globalfifo dev { 

struct cdev cdev; 

unsigned int current len; 

unsigned char mem[GLOBALFIFO SIZE]; 
struct mutex mutex; ~ 

wait queue head t r wait; 

wait queue head t w wait; 

struct fasync struct *async queue; 


CHIH OBWN 


含 xXx 
堆栈 错误 
子 进 程 已 经 停止 或 退出 
如 果 停 止 了 ， 继 续 执 行 
停止 执行 〈 不 能 被 捕获 或 忽略 ) 
终端 停止 信号 
后 台 进 程 需要 从 终端 读 取 输入 
后 台 进 程 需要 向 从 终端 写 出 
紧急 的 套 接 字 事 件 
超额 使 用 CPU 分 配 的 时 间 
文件 尺寸 超额 
虚拟 时 钟 信号 
时 钟 信号 描述 
窗口 尺寸 变化 
IO 
Wr FE EA 


参考 代码 清单 9.4 的 fasync () 函数 模板 ，globalfifo 的 这 个 函数 如 代码 清单 9.8 所 示 。 


代码 清单 9.8 ”支持 异步 通知 的 globalfifo 设 备 驱动 fasync () 函数 


istatic int globalfifo_fasync(int fd, struct file *filp, int mode) 
2{ 

3 struct globalfifo_dev *dev = filp->private_data; 

4 return fasync_helper(fd, filp, mode, &dev->async_queue) ; 

5} 


在 globalfifo 设 备 被 正确 写 入 之 后 ， 它 变 得 可 读 ， 这 个 时 候 驱 动 应 释放 SIGIO 信 号 ， 以 便 应 用 程序 捕获 ， 代 码 清和 


代码 清单 9.9 ”支持 异步 通知 的 globalfifo 设 备 驱动 写 函数 


9.9 给 出 了 支持 异步 通知 的 globalfifo 设 备 驱动 的 写 函 数 。 


lstatic ssize_t globalfifo_write(struct file *filp, const char _ user *buf, 
2 size_t count, loff_t *ppos) 


3 

4 struct globalfifo_dev *dev = filp->private_data; 
5 int ret; 

6 DECLARE WAITQUEUE (wait, current); 

7 

8 


mutex _lock (&dev->mutex) ; 
9 add wait_queue (&dev->w_wait, &wait); 


11 while (dev->current_len == GLOBALFIFO_SIZE) { 
12 if (filp->f flags & O NONBLOCK) { 

13 ret = -EAGAIN; ` 

14 goto out; 

15. } 

16 __set_current_state (TASK_INTERRUPTIBLE) ; 
Ly. 

18 mutex_unlock (&dev—>mutex) ; 

19 

20 schedule (); 

21 if (signal_pending(current)) { 

22 ret = —ERESTARTSYS; 

23 goto out2; 

24 } 

25 


26 mutex_lock (&dev->mutex) ; 


29 if (count > GLOBALFIFO SIZE - dev->current_len) 
0 


3 count = GLOBALFIFO_SIZE - dev->current_len; 

31 

32 if (copy_from_user(dev->mem + dev->current_len, buf, count)) { 
33 ret = -EFAULT; 

34 goto out; 

35 } else { 

36 dev->current_len += count; 

37 printk (KERN INFO "written %d bytes(s),current_len:%d\n", count, 
38 dev->current_len) ; T 

39 

40 wake up interruptible(&dev->r wait); 

41 

42 if (dev->async_queue) { 

43 kill fasync (&dev-: async | queue, SIGIO, POLL IN); 
44 printk (KERN | DEBUG "%s kill SIGIO\n", _ fune Ne 
45 } 

46 

47 ret = count; 

48 } 

49 

50 out 

51 mutex ; unlock (&dev->mutex) ; 

52 out2 


53  remove_wait_queue (&dev->w wait, &wait); 
54 Set current __ State (TASK_RUNNING) ; 

55 return ret; 

56} 


参考 代码 清单 9.6， 增 加 异步 通知 后 的 globalfifo 设 备 驱 动 的 release () 函数 中 需 调 用 globalfifo_fasync () 函数 将 文件 从 异步 通知 列表 中 删除 ， 代 码 清单 9.10 给 出 了 支持 异步 通知 的 
globalfifo_release () 函数 。 


代码 清单 9.10 ”增加 异步 通知 后 的 globalfifo 设 备 驱 动 release () 函数 


lstatic int globalfifo_release(struct inode *inode, struct file *filp) 
21 


3  globalfifo_fasync(-1, filp, 0); 
4 return 0; 
5} 


9.4 ”Linux 异 步 |/O 


9.4.1 ” AIO 概念 与 GNU C 库 AIO 


Linux 中 最 常用 的 输入 /输出 (I/O) 模型 是 同步 MO。 在 这 个 模型 中 ， 当 请 求 发 出 之 后 ， 应 用 程序 就 会 阻塞 ， 直 到 请 求 满足 为 止 。 这 是 一 种 很 好 的 解决 方案 ， 调 用 应 用 程序 在 等 待 MO 请 求 完成 时 不 需要 占 
CPU。 但 是 在 许多 应 用 场景 中 ，MO 请 求 可 能 需要 与 CPU 消耗 产生 交 赤 ， 以 充分 利用 CPU 和 IO 提高 吞吐 率 。 


网 


9.3 描 绘 了 异步 MO 的 时 序 ， 应 用 程序 发 起 VO 动 作 后 ， 直 接 开 始 执行 ， 并 不 等 待 MO 结 束 ， 它 要 么 过 一 段 时 间 来 查询 之 前 的 MO 请 求 完成 情况 ， 要 么 MO 请 求 完成 了 会 自动 被 调用 与 MO 完成 绑 定 的 回调 


用 户 空 间 应 用 
Ti T2 
进行 其 他 的 操作 
异步 IO 请 求 


进行 LO 操作 一 一 一 一 一 
a) 库 内 线程 


内 核 空间 驱动 或 者 


Tl T 
: 行 ; —$ 用 户 空间 应 用 
异步 10 请 求 查询 LO 完成 情况 


b) 内 核 空间 驱动 或 者 
库 内 线程 


图 9.3 “异步 I/O 的 时 序 


Linux 的 AIO 有 多 种 实现 ， 其 中 一 种 实现 是 在 用 户 空 间 的 glibc 库 中 实现 的 ， 它 本 质 上 是 借 


pthread_cond_signal () 的 形式 进行 线程 间 的 同步 。glibc 的 AlIO 主 要 包括 如 下 函数 。 


1.aio_read () 


aio_read () 函数 请 求 对 一 个 有 效 的 文件 描述 符 进行 异步 读 操作 。 这 个 文件 描述 符 可 以 表示 一 个 文件 、 套 接 字 ， 甚 至 管道 。aio_read 函 数 的 原型 如 下 : 


了 多 线程 模型 ， 


开启 新 的 线程 以 同步 的 方法 来 做 VO， 新 的 AlIO 加 


有 助 线程 与 发 起 AIO 的 线程 以 


int aio_read( struct aiocb *aiocbp ); 


aio_read () 函数 在 请 求 进行 排队 之 后 会 立即 返回 (尽管 读 操作 并 未 完成 ) 。 如 果 执 行 成 功 ， 返 回 值 就 为 0 如果 出 现 错误 ， 返 回 值 就 为 -1， 并 设置 errno 的 值 。 


参数 aiocb (AIO MO Control Block) 结构 体 包含 了 传输 的 所 有 信息 ， 以 及 为 AIO 操 作 准 备 的 


2.aio_write () 


aio_ write () 函数 


来 请 求 一 个 异步 写 操作 。 其 函数 原型 如 下 : 


户 空间 缓冲 区 。 在 产生 MO 完成 通知 时 ，aiocb 结 构 就 被 


来 唯一 标识 所 


完成 的 MO 操作 。 


int aio_write( struct aiocb *aiocbp ); 


aio write () 函数 会 立即 返 


回 


并 


3.aio_error () 


它 的 请 求 已 经 被 排队 (成功 时 返 


回 


aio_error () 函数 被 用 来 确定 请 求 的 状态 。 其 原型 如 下 : 


值 为 0， 失 败 时 返 


回 


值 为 -1， 并 相应 地 设置 errno) 


int aio_error( struct aiocb *aiocbp ); 


这 个 函数 可 以 返回 以 下 内 容 。 


EINPROGRESS: 说 明 请 求 尚未 完成 。 


ECANCELED: 说 明 请 求 被 应 


程序 取消 了 。 


-1: 说 明 发 生 了 错误 ， 具 体 错误 原因 由 errno 记 录 。 


4.aio_return () 


异步 /O 和 同步 阻塞 VO 方 式 之 间 的 一 个 


的 。 但 是 在 异步 MO 中 ， 我 们 要 使 


aio_return () 函数 。 这 个 函数 的 原委 


区 别 是 不 能 立即 访问 这 个 函数 的 返回 状态 ， 


OTR: 


因为 异步 /O 并 没有 阻塞 在 read () 调 


上 。 在 标准 的 同步 阻塞 read () 调 


中 , 返 


回 状态 是 在 该 函数 返回 时 提供 


ssize_t aio_return( struct aiocb *aiocbp ); 


只 有 在 aio_error () 调用 确定 请 求 已 经 完成 (可 能 成 功 ， 也 可 能 发 生 了 错误 ) 之 后 ， 才 会 调用 这 个 函数 。aio_return ( 


的 字 节 数 如 果 发 生 错误 ， 返 回 值 为 负数 ) 。 


代码 清 


9.12 给 出 了 


户 空间 应 


aio_error (&my aiocb) ==EINPROGRESS， 即 操作 还 在 进行 中 时 ， 一 直 等 待 ， 结 束 后 通过 aio_return (&my_aioch) 获得 返 匠 


代码 清单 9.12 


户 空间 异步 读 例 程 


程序 进行 异步 读 操作 的 一 个 例 程 ， 它 首先 打开 文件 ， 然 后 准备 aiocb 结 构 体 ， 之 后 调 有 


的 返回 值 就 等 价 于 同步 情况 中 read () 或 write () 系统 调用 的 返回 值 (所 传输 


值 。 


aio read (&my aioch) 进行 提出 异步 读 请 求 ， 当 


#include <aio.h> 
int fd, ret; 


struct aiocb my aiocb; 


if (fd < 0) 
perror ("open") ; 


COIDOBRWNE 


10/* 清 零 aiocb 结 构 体 */ 


fd = open("file.txt", O_RDONLY); 


1lbzero(&my_aiocb, sizeof (struct aioch)); 


12 
13/* 为 aiocb 请 求 分 配 数 据 缓冲 


E */ 


14my_aiocb.aio_buf = malloc (BUFSIZE + 1); 


15if (!my_aiocb.aio_ buf) 
16 perror ("malloc"); 
17 


18/* 初始 化 aiocb 的 成 员 */ 


19my_aiocb.aio_fildes = fd; 
20my_aiocb.aio nbytes = BUFSIZE; 


21my_aiocb.aio_offset = 0; 
22 


23ret = aio read(&my_aiocb); 


24if (ret < 0) 
25 perror ("aio read"); 
26 


27while (aio_error(&my_aiocb) == EINPROGRESS) 


28 continue; 
29 


30if ((ret = aio return (&my_iocb)) > 0) { 
31 /* 获得 异步 读 的 返回 值 */ 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/0EBPS/Text/... 


5.aio_suspend () 


户 可 以 使 


jaio_suspend ( 


) 函数 来 阻塞 调 


进程 ， 直 到 异步 请 求 完成 为 止 。 调 


者 提供 了 一 个 aiocb 引 


列表 ， 其 中 任何 一 个 完成 都 会 导致 aio_suspend () 返回 。 


aio_suspend () 的 函数 原型 如 


int aio_suspend( const struct aiocb *const cblist[] 


, 
int n, const struct timespec *timeout ); 


代码 清单 9.13 给 出 了 用 户 空间 进行 异步 读 操 作 时 使 用 aio_suspend () 函数 的 例子 。 


代码 清单 9.13 ”用 户 空间 异步 /O aio_suspend () 函数 使 用 例 程 


lstruct aioct *cblist [MAX LIST] 

2/* 清 零 aioct 结 构 体 链表 */ — 

3bzero( (char *)cblist, sizeof(cblist) ); 
4/* 将 一 个 或 更 多 的 aiocb 放 入 aioct 的 结构 体 链 表 中 */ 
Scblist[0] = &my_aiocb; 

6ret = aio_read(&my_aioch) ; 

Tret = aio_suspend(cblist, MAX LIST, NULL ); 


当然 ， 在 glibc 实 现 的 AIO 中 ， 除 了 上 述 同步 的 等 待 方式 以 外 ， 也 可 以 使 用 信号 或 者 回调 机 制 来 异步 地 标明 AIO 的 完成 。 


6.aio_cancel () 


aio_cancel () 函数 允许 用 户 取消 对 某 个 文件 描述 符 执行 的 一 个 或 所 有 IO 请 求 。 


原型 如 下 : 


int aio_cancel(int fd, struct aiocb *aiochbp); 


消 一 个 请 求 ， 


7.lio listio () 


lio_listio () 函数 可 用 于 同时 发 起 多 个 传输 。 这 个 函数 非常 


消 对 某 个 给 定 文件 描述 符 的 所 有 请 求 ， 


户 需 提供 文件 描述 符 和 aiocb 指 针 。 如 果 这 个 请 求 被 成 功 取消 了 ， 那 么 这 个 函数 就 会 返回 AIO_CANCELED。 如 果 请 求 完成 了 ， 这 个 函数 就 会 返回 


要 ， 它 使 得 用 户 可 以 在 一 个 系统 调用 中 启动 大 量 的 |/O 操 作 。|lio_listio API 函 数 的 原型 如 下 : 


int lio_listio( int mode, struct aiocb *list[], int nent, struct sigevent *sig ); 


mode 参 数 可 以 是 LIO_WAIT 或 LO_NOWAIT。LIO_WAIT 会 阻塞 这 个 调 


AIO_NOTCANCELED。 


户 需要 提供 这 个 文件 的 描述 符 ， 并 将 aiocbp 参 数 设置 为 NULL。 如 果 所 有 的 请 求 都 取消 了 ， 这 个 函数 就 会 返回 AIO_CANCELED; 如 果 至 少 有 一 个 请 求 没有 
被 取消 ， 那 么 这 个 函数 就 会 返回 AIO_NOT_CANCELED; 如 果 没 有 一 个 请 求 可 以 被 取消 ， 那 么 这 个 函数 就 会 返回 AIO_ALLDONE。 然 


后， 可 以 使 用 aio_error () 来 验证 每 个 AIO 请 求 ， 如 果 某 请 求 已 经 被 取 
消 了 ， 那 么 aio_error () 就 会 返回 -1， 并 且 errno 会 被 设置 为 ECANCELED。 


的 列表 ， 最 大 元 素 的 个 数 是 由 nent 定 义 的 。 如 果 list 的 元 素 为 NULL，lio_listio () 会 将 其 忽略 。 


代码 清单 9.14 给 出 了 用 户 空间 进行 异步 MO 操 作 时 使 用 lio listio () 函数 的 例子 。 


代码 清单 9.14 ”用 户 空间 异步 |/O lio_listio () 函数 使 用 例 程 


， 直 到 所 有 的 MO 都 完成 为 止 。 但 是 若是 LIO_NOWAIT 模 型 ， 在 MO 操作 进行 排队 之 后 ， 该 函数 就 会 返回 。list 是 一 个 aiocb 引 上 


lstruct aiocb aiocbl, aioch2; 
2struct aiocb *list[MAX LIST]; 


3http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
4/* 准备 第 一 个 aiocb */ 


Saiocbl.aio_fildes = fd; 


6aiocbl.aio buf = malloc( BUFSIZE+1 ); 
Jaiocbl.aio_nbytes = BUFSIZE; 
8aiocbl.aio_offset = next_offset; 


9aiocbl.aio lio opcode = 


LIO READ; /* 异步 读 操作 */ 


10http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/OEBPS/Text/... /* 准备 多 个 aiocb */ 
llbzero( (char *)list, sizeof (list) ); 


12 

13/* 将 aiocb 填 入 链表 */ 
14list[0] = é&aiocbl; 
15list[1] = é&aiocb2; 


16http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/. 
17ret = lio_listio( LIO WAIT, list, MAX LIST, NULL ); /* 发 起 大 量 I/O 操 作 */ 


上 述 代码 第 9 行 中 ， 因 为 是 进行 异步 读 操作 ， 所 以 操作 码 为 LIO_READ， 对 于 写 操作 来 说 ， 应 该 使 


LIO_WRITE 作 为 操作 码 ， 而 LIO_NOP 意 味 着 空 操 作 。 


网 页 http://www.gnu.org/software/libc/manual/html_node/Asynchronous-l_002fO.html 包 含 了 AIO 库 函数 的 详细 信息 。 


本 章 主要 讲述 了 Linux 中 的 异步 /O， 异 步 l/O 可 以 使 得 应 用 程序 在 等 待 |//O 操 作 的 


可 


时 进行 其 他 操作 。 


使 用 信号 可 以 实现 设备 驱动 与 


有 者 、FASYNC 标 志 的 设置 并 在 资源 可 获得 时 释放 信号 。 


Linux 2.6 以 后 的 内 核 包 含 对 AlO 的 支持 ， 它 为 用 户 空间 提供 了 统一 的 异步 /O 接 口 


本 章 导 读 


本 章 主要 讲解 Linux 设 备 驱动 编程 中 的 中 断 与 定时 器 处 理 。 由 了 
部 分 离 的 机 制 。 另 外 ， 内 核对 时 钟 的 处 理 也 采用 中 断 方式 ， 而 内 核 软 件 定时 器 最 终 依赖 于 时 钟 中 断 。 


10.1 节 讲解 中 断 和 定时 器 的 概念 


户 程序 之 间 的 异步 通知 ， 总 体 而 言 ， 设 备 驱 动 和 用 户 空间 要 分 别 完成 3 项 对 应 的 工作 ， 用 户 空 | 


。 另 外 ，glibc 也 提供 了 一 个 不 依赖 于 内 核 的 用 户 空间 的 AIO 支 持 。 


第 10 章 “中断 与 时 钟 


中 断 服务 程序 的 执行 并 不 存在 于 进程 上 下 文中 ， 所 以 要 求 中 断 服务 程序 的 时 间 要 尽量 短 。 因 


o 


间 设置 文件 的 拥有 者 、FASYNC 标 志 及 捕获 信号 ， 内 核 空间 响应 对 文件 的 拥 


此 ，Linux 在 中 断 处 理 中 引入 了 项 半 部 和 底 半 


及 处 理 流程 。 


10.2 节 讲解 Linux 中 断 处 理 程序 的 架构 ， 以 及 顶 半 部 、 底 半 部 之 间 的 关系 。 


10.3 节 讲解 Linux 中 断 编程 的 方法 ， 涉 及 申请 和 释放 中 断 、 使 能 和 屏蔽 中 断 以 及 中 断 底 半 部 tasklet、 工 作 队列 、 软 中 断 机 制 和 threaded irq, 


10.4 节 讲解 多 个 设备 共享 同一 个 中 断 号 时 的 中 断 处 理 过 程 。 


10.5 节 和 10.6 节 分 别 讲解 Linux 设 备 驱动 编程 中 定时 器 的 编程 以 及 内 核 延 时 的 方法 。 


10.1 中断 与 定时 器 


所 谓 中 断 是 指 CPU 在 执行 程序 的 过 程 中 ， 出 现 了 某 些 突 发 事件 急 待 处 理 ，CPU 必 须 暂 停 当 前 程序 的 执行 ， 转 去 处 理 突 发 事件 ， 处 理 完毕 后 又 返回 原 程序 被 中 断 的 位 置 继续 执行 。 


根据 中 断 的 来 源 ， 中 断 可 分 为 内 部 中 断 和 外 部 中 断 ， 内 部 中 断 的 中 断 源 来 自 CPU 内 部 (软件 中 断 指令 、 溢 出 、 除 法 错误 等 ， 例 如 ， 操 作 系统 从 用 户 态 切 换 到 内 核 态 需 借助 CPU 内 部 的 软件 中 断 ) ， 外 部 
中 断 的 中 断 源 来 自 CPU 外 部 ， 由 外 设 提出 请 求 。 


根据 中 断 是 否 可 以 屏蔽 ， 中 断 可 分 为 可 屏蔽 中 断 与 不 可 屏蔽 中 断 (NMI) ， 可 屏蔽 中 断 可 以 通过 设置 中 断 控 制 器 寄存 器 等 方法 被 屏蔽 ， 屏 蔽 后 ， 该 中 断 不 再 得 到 响应 ， 而 不 可 屏蔽 中 断 不 能 被 屏蔽 。 


根据 中 断 入 口 跳 转 方法 的 不 同 ， 中 断 可 分 为 向 量 中 断 和 非 向 量 中 断 。 采 用 向 量 中 断 的 CPU 通常 为 不 同 的 中 断 分 配 不 同 的 中 断 号 ， 当 检测 到 某 中 断 号 的 中 断 到 来 后 ， 就 自动 跳 转 到 与 该 中 断 号 对 应 的 地 址 
执行 。 不 同 中 断 号 的 中 断 有 不 同 的 入 口 地 址 。 非 向 量 中 断 的 多 个 中 断 共享 一 个 入 口 地 址 ， 进 入 该 入 口 地 址 后 ， 再 通过 软件 判断 中 断 标志 来 识别 具体 是 哪个 中 断 。 也 就 是 说， 向 量 中 断 由 硬件 提供 中 断 服 务 程 
序 入 口 地 址 ， 非 向 量 中 断 由 软件 提供 中 断 服 务 程序 入 口 地 址 。 


一 个 典型 的 非 向 量 中 断 服务 程序 如 代码 清单 10.1 所 示 ， 它 先 判断 中 断 源 ， 然 后 调用 不 同 中 断 源 的 中 断 服务 程序 。 


代码 清单 10.1 ” 非 向 量 中 断 服务 程序 的 典型 结构 


irg_handler () 
{ 


1 
2 
3 http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
4 int int src = read int status(); /* 读 硬 件 的 中 断 相关 寄存 器 */ 
5 switch (int_src) Į ` /* 判断 中 断 源 */ 
6 case DEV A: 
7 dev a handler (); 
8 
9 
10 


break; 
case DEV_B: 

dev b handler (); 
11 break; 
12 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
13 default: 
14 break; 
15 
16 http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
17} 


谋 入 式 系统 以 及 X86PC 中 大 多 包含 可 编程 中 断 控制 器 (PIC) ， 许 多 MCU 内 部 就 集成 了 PIC。 如 在 80386 中 ，PIC 是 两 片 i8259A 忆 片 的 级 联 。 通 过 读 写 PIC 的 寄存 器 ， 程 序 员 可 以 屏蔽 /使 能 某 中 断 及 获得 
中 断 状态 ， 前 者 一 般 通 过 中 断 MASK 寄 存 器 完成 ， 后 者 一 般 通过 中 断 PEND 寄 存 器 完成 。 


定时 器 在 硬件 上 也 依赖 中 断 来 实现 ， 图 10.1 所 示 为 典型 的 嵌入 式微 处 理 器 内 可 编程 间隔 定时 器 (PIT) 的 工作 原理 ， 它 接收 一 个 时 钟 输入 ， 当 时 钟 脉 冲 到 来 时 ， 将 目前 计数 值 增 1 并 与 预先 设置 的 计数 值 
(计数 目标 ) 比较 ， 若 相等 ， 证 明 计数 周期 满 ， 并 产生 定时 器 中 断 且 复位 目前 计数 值 。 


相等 
一 一 时 钟 输 输出 中 断 一 一 > 
寺 钟 输入 日 前 计数 值 输出 中 断 


(时 钟 脉冲 到 来 时 ， 增 1 


一 4 


图 10.1 PIT 定时 器 的 工作 原理 


在 ARM 多 核 处 理 器 里 最 常用 的 中 断 控制 器 是 GIC (Generic Interrupt Controller) ， 如 图 10.2 所 示 ， 它 支持 3 种 类 型 的 中 断 。 


CFGSDISABLE* 


内 存 映射 接口 


内 存 有 映射 接口 


fer wma 
i FIQ*, IRQ 
Py Fey Be 
处 理 器 ae 处 理 器 
0 0 


FIQ*, IRQ 


10.2 ARMS 4% 2b 3 £ 49GIC 


SGI (Software Generated Interrupt) : 软件 产生 的 中 断 ， 可 以 用 于 多 核 的 核 间 通信 ， 一 个 CPU 可 以 通过 写 GIC 的 寄存 器 给 另外 一 个 CPU 产生 中 断 。 多 核 调度 用 的 IPL WAKEUP, IPITIMER, 
IPI RESCHEDULE, IPI CALL FUNC, IPI CALL FUNC_SINGLE、IPI_CPU_STOP、IPI_IRQ_WORK、IPI COMPLETION 都 是 由 SGI 产 生 的 。 


PPI (Private Peripheral Interrupt) : 某 个 CPU 私有 外 设 的 中 断 ， 这 类 外 设 的 中 断 只 能 发 给 绑 定 的 那个 CPU。 
SPI (Shared Peripheral Interrupt) : 共享 外 设 的 中 断 ， 这 类 外 设 的 中 断 可 以 路 由 到 任何 一 个 CPU。 


对 于 SPI 类 型 的 中 断 ， 内 核 可 以 通过 如 下 API 设 定 中 断 触 发 的 CPU 核 : 


extern int irq_set_affinity (unsigned int irg, const struct cpumask *m); 


在 ARM Linux 默 认 情 况 下 ， 中 断 都 是 在 CPU0 上 产生 的 ， 比 如 ， 我 们 可 以 通过 如 下 代码 把 中 断 irq 设 定 到 CPU i 上 去 : 


irg_set_affinity(irg, cpumask_of(i)); 


10.2 Linux 中 断 处 理 程序 架构 


设备 的 中 断 会 打 断 内 核 进程 中 的 正常 调度 和 运行 ， 系 统 对 更 高 吞吐 率 的 追求 势必 要 求 中 断 服 务 程序 尽量 短小 精 悍 。 但 是 ， 这 个 良好 的 愿望 往往 与 现实 并 不 吻合 。 在 大 多 数 真 实 的 系统 中 ， 当 中 断 到 来 
时 ， 要 完成 的 工作 往往 并 不 会 是 短小 的 ， 它 可 能 要 进行 较 大 量 的 耗 时 处 理 。 


网 
S 
E 
党 
J 
5 
E 
x 
ot 
对 
fea’ 
È 
Eg 
ea 
ig 
= 
a 
过 
q 
Ft 
È 
a 
S 
ygi 
E 
oj 
a 
cl 
cal 
È 
Eg 
È 
fi 
Ht 
alt 
过 
于 
H 
7m 
A 
如 
外 
和 从 
pl] 
a 
ke 
| 
> 
x 
Lr 


点 ， Linux 将 中 断 处 理 程序 分 解 为 两 个 半 部 : 项 半 部 (Top Half) 和 底 半 部 


(Bottom Half) 。 


EPF 
(R aah HE PERE) 


FPR 
(延缓 的 耗 时 探 作 ) 


图 10.3 Linux 中 断 处 理 机 制 


项 半 部 用 于 完成 尽量 少 的 比较 紧急 的 功能 ， 它 往往 只 是 简单 地 读 取 寄 存 器 中 的 中 断 状态 ， 并 在 清除 中 断 标志 后 就 进行 “登记 中 断 ” 的 工作 。 “登记 中 断 ” 意 味 着 将 底 半 部 处 理 程序 挂 到 该 设备 的 底 半 六 
执行 队列 中 去 。 这 样 ， 项 半 部 执行 的 速度 就 会 很 快 ， 从 而 可 以 服务 更 多 的 中 断 请 求 。 


现在 ， 中 断 处 理工 作 的 重心 就 落 在 了 底 半 部 的 头 上 ， 需 用 它 来 完成 中 断 事件 的 绝 大 多 数 任务 。 底 半 部 几乎 做 了 中 断 处 理 程序 所 有 的 事情 ， 而 且 可 以 被 新 的 中 断 打 断 ， 这 也 是 底 半 部 和 项 半 部 的 最 大 不 
同 ， 因 为 顶 半 部 往往 被 设计 成 不 可 中 断 。 底 半 部 相对 来 说 并 不 是 非常 紧急 的 ， 而 且 相 对 比较 耗 时 ， 不 在 硬件 中 断 服务 程序 中 执行 。 


尽管 项 半 部 、 底 半 部 的 结合 能 够 改善 系统 的 响应 能 力 ， 但 是 ， 僵 化 地 认为 Linux 设 备 驱动 中 的 中 断 处 理 一 定 要 分 两 个 半 部 则 是 不 对 的 。 如 果 中 断 要 处 理 的 工作 本 身 很 少 ， 则 完全 可 以 直接 在 项 半 部 全 部 完 


加 了 类 似 于 Linux 的 方法 ， 真 正 的 硬件 中 断 服务 程序 都 应 该 尽量 短 。 因 此 ， 许 多 操作 系统 都 提供 了 中 断 上 下 文 和 非 中 断 上 下 文 相 结合 的 机 制 ， 将 中 断 的 耗 时 工作 


结合 


保留 到 非 中 断 上 下 文 去 执行 。 例 如 ， 在 VxWorks 中 ， 网 络 设备 包 接收 中 断 到 来 后 ， 中 断 服 务 程序 会 通过 netJobpAdd () 函数 将 耗 时 的 包 接 收 和 上 传 工作 交 给 tNetTask 任 务 去 执行 。 


在 Linux 中 ,查看 /proc/interrupts 文 件 可 以 获得 系统 中 中 断 的 统计 信息 ， 并 能 统计 出 每 一 个 中 断 号 上 的 中 断 在 每 个 CPU 上 发 生 的 次 数 ， 具 体 如 


10.4 所 示 。 


区 


baohua@baohua-VirtualBox://sys/module/globalmem$ cat /proc/interrupts 


CPUO 
119 
14444 
8 

8 

2483 

9 
11679 
14749 
17379 
105402 
30 

8 
564521 
8 

0 


0 
263390 


CPU1 


382214 
50 
1201 

9 

9 

9 

40 


I0-APIC-edge 
I0-APIC-edge 
I0-APIC-edge 
I0-APIC-fasteoi 
I0-APIC-edge 
I0-APIC-edge 
I0-APIC-edge 


timer 
18042 
rtce 
acpi 
18042 
ata_piix 
ata_piix 


IO-APIC 
IO-APIC 
IO-APIC 
IO-APIC 


19-fasteoi 
20-fasteoi 
21-fasteoi 
22-fasteoi 


ehci_hcd:usbi, etho 


vboxguest 
0000:00:0d.0 
ohci_hcd:usb2 


Non-maskable interrupts 


Local timer interrupts 
Spurious interrupts 


Performance monitoring interrupts 


IRQ work interrupts 

APIC ICR read retries 
Rescheduling interrupts 
Function call interrupts 


TLB shootdowns 


Thermal event interrupts 
Threshold APIC interrupts 
Machine check exceptions 
Machine check polls 


图 10.4 Linux 中 的 中 断 统计 信息 


10.3 Linux 中 断 编程 


10.3.1 ”申请 和 释放 中 断 


在 Linux 设 备 驱动 中 ， 使 用 中 断 的 设备 需要 申请 和 释放 对 应 的 中 断 ， 并 分 别 使 有 


内 核 提 供 的 re 


1. 申 请 irq 


quest_irq () 和 free irq () 函数 。 


int request_irq(unsigned int irq, irq handler_t handler, unsigned long flags, 
const char *name, void *dev); 


irq 是 要 申请 的 硬件 中 断 号 。 


handler 是 向 系统 登记 的 中 断 处 理 函 数 (项 半 部 ) ， 是 一 个 回调 函数 ， 中 断 发 生 时 ， 系 统 调用 


irqflags 是 中 断 处 理 的 属性 ， 可 以 指定 中 断 的 触发 方式 以 及 处 理 方式 。 在 触发 方式 方 画 
。 在 处 理 方式 方面 ， 若 设置 了 IRQF_SHARED， 则 表示 多 个 设备 共享 中 断 ，dev 是 要 传递 给 中 断 


这 个 函数 ，dev 参 数 将 被 传递 给 它 。 


， 可 以 是 IRQF_TRIGGER_RISING、IRQF_TRIGGER_FALLING、IRQF_TRIGGER_HIGH、1IRQF_TRIGGER_LOW 


务 程 序 的 私有 数据 ， 一 般 设置 为 这 个 设备 的 设备 结构 体 或 者 NULL。 


request_irq () 返回 0 表示 成 功 ， 返 回 -EINVAL 表 示 中 断 号 无 效 或 处 理 函 数 指针 为 NULL， 返 


回 -EBUSY 表 示 中 断 已 经 被 占 


且 不 能 共享 。 


int devm_request_irq(struct device *dev, unsigned int irq, irq handler t handler, 
unsigned long irqflags, const char *devname, void *dev_id); 


此 函数 与 request_irq () 的 区 别 是 devm_ 开 头 的 API 申 请 的 是 内 核 “managed” 的 资源 ， 一 般 不 需要 在 出 错 处理 和 remove () 接口 
devm_request_irq () 后 就 删除 了 free_irq () ， 该 补丁 对 应 的 内 核 commit ID 是 652355c5。 


at86rf230 驱 动 ， 如 下 的 补丁 中 改 有 


里 再 显 式 的 释放 。 有 点 类 似 Java 的 垃圾 回收 机 制 。 比 如 ， 对 于 


--- a/drivers/net/ieee802154/at86r£230.c 
+++ b/drivers/net/ieee802154/at86r£230.c 
@@ -1190,24+1190,22@@ static int at86rf230_probe (struct spi_device *spi) 
if (rc) 
goto err hw init; 
= re = request_irgq(spi->irg, irq handler, IRQF_SHARED, 
= dev_name(&spi->dev), lp); 


re = devm_request_irq(sspi->dev, spi->irg, irq handler, IRQF SHARED, 
dev_name (&spi->dev), lp); 


++ 


if (rc) 
goto err hw init; 
/* Read irq status register to reset irq line */ 
re = at86rf230 read subreg (lp, RG IRQ STATUS, Oxff, 0, &status); 
if (rc) oO -— 

= goto err irq; 

+ goto err hw init; 
rc = ieee802154 register device (lp->dev) ; 
if (re) ii i 

a goto err irq; 

+ goto err hw_init; 
return re; ` ` 

-err_irq: 

- free irq(spi->irq, lp); 

err hw_init: 

“flush _work (&lp->irqwork) ; 
spi_set_drvdata(spi, NULL); 

@@ -1232,7+1230,6@@ static int at86rf230 remove(struct spi device *spi) 
at86r£230_write_subreg(lp, SR IRQ MASK, 0); T 
ieee802154 unregister_device (lp->dev); 

一 free_irq(spi->irg, lp); 
flush work (&lp->irqwork) ; 
if (gpio is valid(pdata->slp_tr)) 


a 


部 handler 的 类 型 irq_handler te WH: 


typedef irgreturn_t (*irg_handler_t) (int, void *); 
typedef int irgreturn_t; 


2. 释 放 irq 


Srequest_irq () 相对 应 的 函数 为 free_irq () ，free_irq () 的 原型 为 : 


void free_irq(unsigned int irg,void *dev_id); 


free_irq () 中 参数 的 定义 与 request_irq () 相同 。 


10.4 中断 共享 


多 个 设备 共享 一 根 硬件 中 断 线 的 情况 在 实际 的 硬件 系统 中 广泛 存在 ，Linux 支 持 这 种 中 断 共享 。 下 面 是 中 断 共 享 的 使 用 方法 。 


1) 共享 中 断 的 多 个 设备 在 申请 中 断 时 ， 都 应 该 使 用 RQF_SHARED 标 志 ， 而 且 一 个 设备 以 IRQF_SHARED 申 请 某 中 断 成 功 的 前 提 是 该 中 断 未 被 申请 ， 或 该 中 断 虽 然 被 申请 了 ， 但 是 之 前 申请 该 中 断 的 所 
有 设备 也 都 以 IRQF_SHARED 标 志 申 请 该 中 断 。 


2) 尽管 内 核 模 块 可 访问 的 全 局 地 址 都 可 以 作为 request_irq (..., void*dev id) 的 最 后 一 个 参数 dev_id， 但 是 设备 结构 体 指针 显然 是 可 传 入 的 最 佳 参数 。 


3) 在 中 断 到 来 时 ， 会 遍历 执行 共享 此 中 断 的 所 有 中 断 处 理 程序 ， 直 到 某 一 个 函数 返回 IRQ_HANDLED。 在 中 断 处 理 程序 项 半 部 中 ， 应 根据 硬件 寄存 器 中 的 信息 比照 传 入 的 dev_id 参 数 迅 速 地 判断 是 否 为 
本 设备 的 中 断 ， 若 不 是 ， 应 迅速 返回 IRQ_NONE， 如 图 10.5 所 示 。 


图 10.5 共享 中 断 的 处 理 


代码 清单 10.8 给 出 了 使 用 共享 中 断 的 设备 驱动 程序 的 模板 〈( 仅 包含 与 共享 中 断 机 制 相关 的 部 分 ) 。 


代码 清单 10.8 ”共享 中 断 编程 模板 


1/* 中 断 处 理 顶 半 部 */ 


2irqreturn t xxx_interrupt (int irg, void *dev_id) 


3{ 

4 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
5 int status = read_int_status(); /* 获知 中 断 源 */ as 

6 if(!is myint (dev_id, status) ) /* 判断 是 否 为 本 设备 中 断 */ 

7 ~ return TRQ NONE; /* 不 是 本 设备 中 断 ， 立 即 返回 */ 

8 


9 /* 是 本 设备 中 断 ， 进 行 处 理 */ 
10 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/0EBPS/Text/... 
11 return IRQ HANDLED; /* 返回 IRQO_HANDLED 表 明 中 断 已 被 处 理 */ 


14/* 设备 驱动 模块 加 载 函 数 */ 

15int xxx_init (void) 

16{ 

i7 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
18 /* 申请 共享 中 断 */ 

19 result = request_irq(sh_irq, xxx_interrupt, 


20 IRQF SHARED, "xxx", xxx dev); 

21 http: //www.hzcourse .com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/.. . 
22} 

23 

24/* ity AaB Ik Sp RH */ 

25void xxx exit (void) 

26{ ~ 

27 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
28 /* 释放 中 断 */ 


29 free irq(xxx irq, xxx interrupt); 
30 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
31} 


10.5 ”内 核定 时 器 


10.5.1 ”内 核定 时 器 编程 


软件 意义 上 的 定时 器 最 终 依赖 硬件 定时 器 来 实现 ， 内 核 在 时 钟 中 断 发 生 后 检测 各 定时 器 是 否 到 期 ， 到 期 后 的 定时 器 处 理 函 数 将 作为 软 中 断 在 底 半 部 执行 。 实 质 上 ， 时 钟 中 断 处 理 程序 会 唤起 


TIMER_SOFTIRQ 软 中 断 ， 运 行当 前 处 理 器 上 到 期 的 所 有 定时 器 。 


在 Linux 设 备 驱动 编程 中 ， 可 以 利用 Linux 内 核 中 提供 的 一 组 函数 和 数据 结构 来 完成 定时 触发 工作 或 者 完成 某 周期 性 的 事务 。 这 组 函数 和 数据 结构 使 得 驱动 工程 师 在 多 数 情 况 下 不 
器 究竟 对 应 着 怎样 的 内 核 和 硬件 行为 。 


Linux 内 核 所 提供 的 用 于 操作 定时 器 的 数据 结构 和 函数 如 下 。 


1.timer list 


在 Linux 内 核 中 ，timer list 结 构 体 的 一 个 实例 对 应 一 个 定时 器 ， 如 代码 清单 10.9 所 示 。 


代码 清单 10.9 timer list 结 构 体 


关心 具体 的 软件 定时 


lstruct timer list { 


2 ie 

3 * All fields that change during normal runtime grouped to the 
4 * same cacheline 

5 */ 

6 struct list_head entry; 

F unsigned long expires; 

8 struct tvec_base *base; 

g 

10 void (*function) (unsigned long); 
11 unsigned long data; 

12 

13 int slack; 

14 

15#ifdef CONFIG_TIMER STATS 

16 int start_pid; 

17 void *start_site; 

18 char start_comm[16]; 

19#endif 

20#ifdef CONFIG LOCKDEP 

21 struct lockdep map lockdep_map; 
22#endif = 
23}; 


当 定 时 器 期 满 后 ， 其 中 第 10 行 的 function () 成 员 将 被 执行 ， 而 第 11 行 的 data 成 员 则 是 传 入 其 中 的 参数 ， 第 7 行 的 expires 则 是 定时 器 到 期 的 时 间 (jiffies) 。 


如 下 代码 定义 一 个 名 为 my timer 的 定时 器 : 


struct timer_list my timer; 


2. 初 始 化 定时 器 


init_timer 是 一 个 宏 ， 它 的 原型 等 价 于 : 


void init timer(struct timer list * timer); 


上 述 init timer () 函数 初始 化 timer_list 的 entry 的 next 为 NULL， 并 给 base 指 针 赋值 。 


TIMER_INITIALIZER (_function，_expires，_data) 宏 用 于 赋值 定时 器 结构 体 的 function、expires、data 和 base 成 员 ， 这 个 宏 等 价 于 : 


#define TIMER INITIALIZER(_ function, expires, data) { x 
T .entry = { .prev = TIMER ENTRY STATIC }, \ 

.function = (function), \ 

.expires = (_expires), \ 

.data = (data), \ 


anil 
-base = &boot_tvec_bases, 


DEFINE_TIMER (_name, function, expires, data) 宏 是 定义 并 初始 化 定时 器 成 员 的 “快捷 方式 ”， 这 个 宏 定 义 为 : 


#define DEFINE_TIMER(_name, function, expires, _data)\ 
struct timer list name =\ 
TIMER_INITIALIZER(_function, _expires, _ data) 


此 外 ，setup timer () 也 可 用 于 初始 化 定时 器 并 赋值 其 成 员 ， 其 源 代码 为 : 


#define _ setup timer( timer, _fn, _data, flags) \ 
do { \ 
__init_timer((_timer), (_flags)); \ 
(_timer)->function = (_fn); \ 
(_timer)->data = (_data); % 

} while (0) 


3. 增 加 定时 器 


void add_timer(struct timer list * timer); 


上 述 函 数 用 于 注册 内 核定 时 器 ， 将 定时 器 加 入 到 内 核 动态 定时 器 链表 中 。 


4 删除 定时 器 


int del _ timer (struct timer_list * timer); 


上 述 函 数 用 于 删除 定时 器 。 


del timer sync () 是 del_timer () 的 同步 版 ， 在 删除 一 个 定时 器 时 需 等 待 其 被 处 理 完 ， 因 此 该 函数 的 调用 不 能 发 生 在 中 断 上 下 文中 。 


5. 修 改定 时 器 的 expire 


int mod timer (struct timer_list *timer, unsigned long expires); 


上 述 函 数 用 于 修改 定时 器 的 到 期 时 间 ， 在 新 的 被 传 入 的 expires 到 来 后 才 会 执行 定时 器 函数 。 


代码 清单 10.10 给 出 了 一 个 完整 的 内 核定 时 器 使 用 模板 ， 在 大 多 数 情况 下 ， 设 备 驱 动 都 如 这 个 模板 那样 使 用 定时 器 。 


代码 清单 10.10 ”内 核定 时 器 使 用 模板 


1/* XXX 设备 结构 体 */ 
2struct xxx dev { 
3 struct cdev cdev; 
4 http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
5 timer list xxx timer; /* 设备 要 使 用 的 定时 器 */ 
6}; 
7 
8/* XXX 驱动 中 的 某 函 数 */ 
9xxx funcl (=+) 
10{ 7 
11 struct xxx_dev *dev = filp->private_data; 
12 http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
13 /* 初始 化 定时 器 */ 
14 init timer (&dev->xxx timer); 
15 dev->xxx_timer.function = &xxx do timer; 


16 dev->xxx_timer.data = (unsigned long) dev; 
17 /* 设备 结构 体 指针 作为 定时 器 处 理 函 数 参数 */ 


18 dev->xxx timer.expires = jiffies + delay; 

19 /* 添加 (注册 ) 定时 器 */ 

20 add timer (&dev->xxx_timer) ; 

21 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/0EBPS/Text/... 


24/* XXX 驱动 中 的 某 函 数 */ 

25xxx func2 (…) 

26{ ~ 

27 http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
28 /* 删除 定时 器 */ 

29 del timer (adev->xxx timer); 

30 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/0EBPS/Text/... 
31} 

32 

33/* 定时 器 处 理 函 数 */ 

34static void xxx do timer (unsigned long arg) 

35{ 

36 struct xxx device *dev = (struct xxx device *) (arg); 

37 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
38 /* 调度 定时 器 再 执行 */ 

39 dev->xxx_timer.expires = jiffies + delay; 

40 add timer (&dev->xxx_timer) ; 

41 http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
42} 


从 代码 清单 第 18、39 行 可 以 看 出 ， 定 时 器 的 到 期 时 间 往 往 是 在 目前 jiffies 的 基础 上 添加 一 个 时 延 ， 若 为 Hz， 则 表示 延迟 1s。 
在 定时 器 处 理 函 数 中 ， 在 完成 相应 的 工作 后 ， 往 往 会 延 后 expires 并 将 定时 器 再 次 添加 到 内 核定 时 器 链表 中 ， 以 便 定 时 器 能 再 次 被 触发 。 


此 外 ，Linux 内 核 支持 tickless 和 NO_HZ 模 式 后 ， 内 核 也 包含 对 hrtimer (高 精度 定时 器 ) 的 支持 ， 它 可 以 支持 到 微 秒 级 别 的 精度 。 内 核 也 定义 了 hrtimer 结 构 体 ，hrtimer_set_expires () 、 
hrtimer_start_expires () 、hrtimer forward now () , hrtimer_restart () 等 类 似 的 APl 来 完成 hrtimer 的 设置 、 时 间 推 移 以 及 到 期 回调 。 我 们 可 以 从 sound/soc/fsVimx-pcm-fiq.c 中 提取 出 一 个 使 用 
例 ， 如 代码 清单 10.11 所 示 。 


代码 清单 10.11 内核 高 精度 定时 器 (hrtimer) 使 用 模板 


ct 


lstatic enum hrtimer_restart snd_hrtimer_callback(struct hrtimer *hrt) 


2{ 
3 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
4 
i} hrtimer_forward_now(hrt, ns to ktime (iprtd->poll time ns)); 
6 
7 return HRTIMER RESTART; 
8} 
9 
10static int snd imx pcm trigger (struct snd_pcm_substream *substream, int cmd) 
11 
12 struct snd pcm runtime *runtime = substream->runtime; 
13 struct imx pcm runtime_data *iprtd = runtime->private_data; 
14 
15 switch (cmd) { 
16 case SNDRV PCM TRIGGER START: 
17 case SNDRV_PCM TRIGGER RESUME: 
18 case SNDRV PCM TRIGGER PAUSE RELEASE: 
19 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
20 hrtimer_start (&iprtd->hrt, ns to ktime (iprtd->poll_time_ns), 
21 HRTIMER MODE REL); 
22 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
23} 
24 
25static int snd_imx_open(struct snd_pcm_substream *substream) 
26{ 
27 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
28 hrtimer_init (&iprtd->hrt, CLOCK_MONOTONIC, HRTIMER MODE REL) ; 
29 iprtd->hrt.function = snd_hrtimer_callback; 
30 
31 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


32 return 0; 


33} 
34static int snd_imx_close(struct snd_pcm_substream *substream) 
35 


36 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
37 hrtimer_cancel (&iprtd->hrt) ; 

38 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
39} 


第 28~29 行 在 声卡 打开 的 时 候 通 过 hrtimer_init () 初始 化 了 hrtimer， 并 指定 回调 函数 为 snd_hrtimer_callback () ; 在 启动 播放 ($815~2147SNDRV_PCM_TRIGGER_START) 等 时 刻 通 过 
hrtimer_start () 启动 了 hrtimer; iprtd->polltime_ns 纳 秒 后 ， 时 间 到 snd_hrtimer_ callback () 函数 在 中 断 上 下 文 被 执行 ， 它 紧 接着 又 通过 hrtimer forward_now () 把 hrtimer 的 时 间 前 移 了 iprtd- 
>poll_time_ns 纳 秒 ， 这 样 周而复始 ; 直到 声卡 被 关闭 ， 第 37 行 又 调用 了 hrtimer_cancel () 取消 在 open 时 初始 化 的 hrtimer。 


10.6 ”内核 延 时 


10.6.1 短 延 迟 


Linux 内 核 中 提供 了 下 列 3 个 函数 以 分 别 进 行 纳 秒 、 微 秒 和 毫秒 延迟 : 


void ndelay (unsigned long nsecs) ; 
void udelay (unsigned long usecs) ; 
void mdelay (unsigned long msecs) ; 


上 述 延 迟 的 实现 原理 本 质 上 是 忙 等待 ， 它 根据 CPU 频率 进行 一 定 次 数 的 循环 。 有 了 时候， 人 们 在 软件 中 进行 下 面 的 延迟 : 


void delay(unsigned int time) 


while (time--) ; 


} 


ndelay () 、udelay () 和 mdelay () 函数 的 实现 方式 原理 与 此 类 似 。 内 核 在 启动 时 ， 会 运行 一 个 延迟 循环 校准 (Delay Loop Calibration) ， 计 算出 lpj (Loops Per Jiffy) ， 内 核 启动 时 会 打印 如 下 


类 似 信息 : 


Calibrating delay loophttp://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 530.84 BogoMIPS (lpj=1327104) 


如 果 我 们 直接 在 bootloader 传 递 给 内 核 的 bootargs 中 设置 lpj=1327104， 则 可 以 省 掉 这 个 校准 的 过 程 ， 节 省 约 百 毫秒 级 的 开机 时 间 。 


毫秒 时 延 (以 及 更 大 的 秒 时 延 ) 已 经 比较 大 了 ， 在 内 核 中 ， 最 好 不 要 直接 使 用 mdelay () 函数 ， 这 将 耗费 CPU 资源 ， 对 于 毫秒 级 以 上 的 时 延 ， 内 核 提供 了 下 述 函 数 : 


void msleep (unsigned int millisecs) ; 
unsigned long msleep_interruptible (unsigned int millisecs); 
void ssleep (unsigned int seconds); 


上 述 函 数 将 使 得 调用 它 的 进程 睡眠 参数 指定 的 时 间 为 millisecs，msleep () ` ssleep () 不 能 被 打 断 ， 而 msleep_interruptible () 则 可 以 被 打 断 。 


sz) 受 系统 Hz 以 及 进程 调度 的 影响 ，msleep Q 类 似 函 数 的 精度 是 有 限 的 。 


10.7 总结 


Linux 的 中 断 处 理 分 为 两 个 半 部 ， 项 半 部 处 理 紧急 的 硬件 操作 ， 底 半 部 处 理 不 紧急 的 耗 时 操作 。tasklet 和 工作 队列 都 是 调度 中 断 底 半 部 的 良好 机 制 ，tasklet 基 于 软 中 断 实 现 。 内 核定 时 器 也 依靠 软 中 断 
实现 。 


内 核 中 的 延 时 可 以 采用 忙 等 待 或 睡眠 等 待 ， 为 了 充分 利用 CPU 资源 ， 使 系统 有 更 好 的 吞吐 性 能 ， 在 对 延迟 时 间 的 要 求 并 不 是 很 精确 的 情况 下 ， 睡 眠 等 待 通常 是 值得 推荐 的 ， 而 ndelay () 、udelay () 
忙 等 待机 制 在 驱动 中 通常 是 为 了 配合 硬件 上 的 短 时 延迟 要 求 。 


第 11 章 ”内存 与 MO 访问 


本 章 导读 
由 于 Linux 系 统 提供 了 复杂 的 内 存 管理 功能 ， 所 以 内 存 的 概念 在 Linux 系 统 中 相对 复杂 ， 有 常规 内 存 、 高 端 内 存 、 虚 拟 地 址 、 逻 辑 地 址 、 总 线 地 址 、 物 理 地 址 、MO 内 存 、 设 备 内存 、 预 留 内 存 等 概念 。 
章 将 系统 地 讲解 内 存 和 MO 的 访问 编程 ， 带 读者 走出 内 存 和 IO 的 概念 迷宫 。 


11.1 节 讲解 内 存 和 1/O 的 硬件 机 制 ， 主 要 涉及 内 存 空间 、1/O 空 间 和 MMU。 


下 


11.2 节 讲解 Linux 的 内 存 管理 、 内 存 区 域 的 分 布 、 常 规 内 存 与 高 端 内 存 的 区 另 


11.3 节 讲解 Linux 内 存 存 取 的 方法 ， 主 要 涉及 内 存 动态 申请 以 及 通过 虚拟 地 址 存 取 物 理 地 址 的 方法 。 


11.4 节 讲解 设备 MO 端口 和 MO 内 存 的 访问 流程 ， 这 一 节 对 于 编写 设备 驱动 的 意义 非常 重大 ， 设 备 驱动 使 用 此 节 的 方法 访问 物理 设备 。 


11.5 节 讲解 MO 内 存 静 态 映射 。 


本 


11.6 节 讲解 设备 驱动 中 的 DMA 与 Cache 一 致 性 问题 以 及 DMA 的 编程 方法 。 


11.1 CPU 与 内 存 、MO 


11.1.1 内 存 空 间 与 MO 空间 


号 标识 了 外 设 的 寄存 器 地 址 。Intel 语 法 中 的 in、out 指 令 格式 如 下 : 


在 X86 处 理 器 中 存在 着 /O 空 间 的 概念 ，MO 空 间 是 相对 于 内 存 空间 而 言 的 ， 它 通过 特定 的 指令 jin、out 来 访问 。 端 


IN 累加 器 ，{ 端 口号 | DX} 
OUT {端口 号 | DX} ,累加 器 


的 变量 和 其 他 数据 都 存在 于 内 存 


目前 ， 大 多 数 嵌 入 式微 控制 器 (如 ARM、PowerPC 等 ) 中 并 不 提供 MO 空间 ， 而 仅 存在 内 存 空 间 。 内 存 空间 可 以 直接 通过 地 址 、 指 针 来 访问 ， 程 序 及 在 程序 运行 中 使 


空间 中 。 
内 存 地 址 可 以 直接 由 C 语 言 指针 操作 ， 例 如 在 186 处 理 器 中 执行 如 下 代码 : 


unsigned char *p = (unsigned char *) 0xFOOOFFOO; 
*p=11; 


以 上 程序 的 意义 是 在 绝对 地 址 0xF0000+0xFF00 (186 处 理 器 使 用 16 位 段 地 址 和 16 位 偏 移 地 址 ) 中 写 入 11。 


而 在 ARM、PowerPC 等 未 采用 段 地 址 的 处 理 器 中 ，p 指 向 的 内 存 空间 就 是 0xF000FF00， 而 *p=11 就 是 在 该 地 址 写 入 11。 


再 如 ，186 处 理 器 启动 后 会 在 绝对 地 址 0xFFFF0 (对 应 的 C 语 言 指针 是 0xF000FFF0，0xF000 为 段 地 址 ，0xFFF0 为 段 内 偏 移 ) 中 执行 ， 请 看 下 面 的 代码 : 


typedef void (*lpFunction) ( ); /* 定义 一 个 无 参数 、 无 返回 类 型 的 函数 指针 类 型 */ 
lpFunction lpReset = (lpFunction) 0xF000FFF0; /* 定义 一 个 函数 指针 ， 指 向 */ 

/* CPU 启动 后 所 执行 的 第 一 条 指令 的 位 置 */ 

lpReset () 7 /* 调用 函数 */ 


启 ” 的 作用 ， 跳 转 到 CPU 启动 后 第 一 条 要 执行 的 指令 的 位 置 。 因 此 ， 可 以 通过 函 


在 以 上 程序 中 ， 没 有 定义 任何 一 个 函数 实体 ， 但 是 程序 却 执行 了 这 样 的 函数 调用 : IpReset () ， 它 实际 上 起 到 了 "KE 
数 指针 调用 一 个 没有 函数 体 的 “函数 ”， 这 本 质 上 只 是 换 一 个 地 址 开始 执行 。 

即便 是 在 X86 处 理 器 中 ， 虽 然 提 供 了 IO 空间 ， 如 果 由 我 们 自己 设计 电路 板 ， 外 设 仍然 可 以 只 挂 接 在 内 存 空间 中 。 此 时 ，CPU 可 以 像 访问 一 个 内 存单 元 那样 访问 外 设 MO 端 
令 。 因 此 ， 内 存 空 间 是 必需 的 ， 而 I/O 空 间 是 可 选 的 。 图 11.1 给 出 了 内 存 空间 和 1/O 空 间 的 对 比 。 


， 而 不 需要 设立 专门 的 MO 指 


CPU TT i 
[ai (地 址 ) in、out 


ATEZ E (必须 ) 


图 11.1 内 存 空 间 和 I/O 〇 空间 


11.2 ”Linux 内 存 管理 


对 于 包含 MMU 的 处 理 器 而 言 ，Linux 系 统 提供 了 复杂 的 存储 管理 系统 ， 使 得 进程 所 能 访问 的 内 存 达 到 4GB。 
户 空间 的 地 址 一 般 分 布 为 0~3GB ( 即 PAGE_OFFSET， 在 0x86 中 它 等 于 0xC0000000) ， 这 样 ， 剩 下 的 3~4GB 为 内 核 


户 空间 与 内 核 空间 。 


在 Linux 系 统 中 ， 进 程 的 4GB 内 存 空间 被 分 为 两 个 部 分 


空间 ， 如 图 11.5 所 示 。 用 户 进程 通常 只 能 访问 用 户 空间 的 虚拟 地 址 ， 不 能 访问 内 核 空间 的 虚拟 地 址 。 用 户 进程 只 有 通过 系统 调用 (代表 用 户 进程 在 内 核 态 执行 ) 等 方式 才 可 以 访问 到 内 核 空间 。 


4GB 

—PAGE -OFFSET — 3GB 
2GB 

IGB 

0 


Alls ”用户 空间 与 内 核 空间 


内 核 空 间 


每 个 进程 的 用 户 空间 都 是 完全 独立 、 互 不 相干 的 ， 进程 各 自 有 不 同 的 页 表 。 而 内 核 空间 是 由 内 核 负责 映射 ， 它 并 不 会 跟着 进程 改变 ， 是 固定 的 。 内 核 空间 的 虚拟 地 址 到 物理 地 址 映射 是 被 所 有 进程 
共享 的 ， 内 核 的 虚拟 空间 独立 于 其 他 程序 。 


Linux 中 1GB 的 内 核 地 址 空间 又 被 划分 为 物理 内 存 映射 区、 虚拟 内 存 分 配 


办 
a 


、 高 端 页 面 映射 区 、 专 用 页 面 映射 区 和 系统 保留 映射 区 这 几 个 区 域 ， 如 图 11.6 所 示 。 


4GB 


高 端 内 存 映射 区 


vmalloc 虚 拟 内 存 分 配 需 区 


”物理 内 存 映射 区 


4GB 


物理 内 存 Linux 内 核 空间 


图 11.6” ”32 位 x86 系 统 Linux 内 核 的 地 址 空间 


对 于 x86 系 统 而 言 ， 一 般 情 况 下 ， 物 理 内 存 映射 区 最 大 长 度 为 8996MB， 系 统 的 物理 内 存 被 顺序 映射 在 内 核 空间 的 这 个 区 域 中 。 当 系统 物理 内 存 大 于 896MB 时 ， 超 过 物理 内 存 映 射 区 的 那 部 分 内 存 称 为 高 
端 内 存 (而 未 超过 物理 内 存 映 射 区 的 内 存 通常 被 称 为 常规 内 存 ) ， 内 核 在 存 取 高 端 内 存 时 必须 将 它们 映射 到 高 端 页 面 映射 区 


Linux 保 留 内 核 空间 最 顶部 FIXADDR_TOP ~4GB 的 区 域 作为 保留 区 。 


紧 接着 最 顶端 的 保留 区 以 下 的 一 段 区 域 为 专用 页 面 映射 区 (FIXADDR_START~FIXADDR_TOP) ， 它 的 总 尺寸 和 每 一 页 的 用 途 由 fixed_address 枚 举 结构 在 编译 时 预定 义 ,用 _fix to virt (index) 可 获 
取 专 用 区 内 预定 义 页 面 的 逻辑 地 址 。 其 开始 地 址 和 结束 地 址 宏 定 义 如 下 : 


efine FIXADDR START (FIXADDR TOP - _ _FIXADDR SIZE) 
#define FIXADDR_TOP ((unsigned long) _FIXADDR_TOP) 
#define _ _FIXADDR_ TOP Oxfffff000 


x] 


接 下 来 ， 如 果 系 统 配置 了 高 端 内 存 ， 则 位 于 专用 页 面 映射 区 之 下 的 就 是 一 段 高 端 内 存 映 射 区 ， 其 起 始 地 址 为 PKMAP_BASE， 定 义 如 下 : 


efine PKMAP BASE ( (FIXADDR BOOT _ START - PAGE SIZE* (LAST PKMAP + 1)) & PMD MASK ) 


其 中 所 涉及 的 宏 定义 如 下 : 


#define FIXADDR BOOT START (FIXADDR TOP - _ _FIXADDR_BOOT_SIZE) 
#define LAST PKMAP ~ PTRS PER PTE 

#define PTRS PER_PTE 512 ` 

#define PMD MASK” (~(PMD_SIZE-1)) 

# define PMD SIZE (LUL << PMD SHIFT) 

#define PMD SHIFT 21 g 


在 物理 区 和 高 端 映射 区 之 间 为 虚拟 内 存 分 配器 区 (VMALLOC_START~VMALLOC_END) ， 用 于 vmalloc () 函数 ， 它 的 前 部 与 物理 内 存 映射 区 有 一 个 隔离 带 ， 后 部 与 高 端 映射 区 也 有 一 个 隔离 


带 ，vmalloc 区 域 定义 如 下 : 


#define VMALLOC_OFFSET (8*1024*1024) 

#define VMALLOC START (( (unsigned long) high memory + 
vmalloc_earlyreserve + 2*VMALLOC OFFSET-1) & ~(VMALLOC OFFSET-1)) 

#ifdef CONFIG HIGHMEM /* 支持 高 端 内 存 */ 


# define VMALLOC_END (PKMAP BASE-2*PAGE SIZE) 
#else /* RRA HAA #7 

# define VMALLOC END (FIXADDR START-2*PAGE SIZE) 
#endif a g 


当 系 统 物理 内 存 超过 4GB 时 ， 必 须 使 用 CPU 的 扩展 分 页 (PAE) 模式 所 提供 的 64 位 页 目录 项 才能 存 取 到 4GB 以 上 的 物理 内 存 ， 这 需要 CPU 的 支持 。 加 入 了 PAE 功 能 的 Intel Pentium Pro 及 以 后 的 CPU 人 允 
许 内 存 最 大 可 配置 到 64GB， 它 们 具备 36 位 物理 地 址 空间 寻 址 能 力 。 


由 此 可 见 ， 对 于 32 位 的 x86 而 言 ， 在 3~4GB 之 间 的 内 核 空间 中 ， 从 低地 址 到 高 地 址 依次 为 : 物理 内 存 映 射 


区 一 隔离 带 一 vmalloc 虚 拟 内 存 分 配器 区 一 隔离 带 一 高 端 内 存 映射 区 一 专用 页 面 映射 区 一 保留 


风 


直接 进行 映射 的 896MB 物 理 内 存 其 实 又 分 为 两 个 区 域 ， 在 低 于 16MB 的 区 域 ，ISA 设 备 可 以 做 DMA， 所 以 该 区 域 为 DMA 区 域 (内 核 为 了 保证 1SA 驱 动 在 申请 DMA 缓 冲 区 的 时 候 ， 通 过 GFP_DMA 标 记 可 
以 确保 申请 到 16MB 以 内 的 内 存 ， 所 以 必须 把 这 个 区 域 列 为 一 个 单独 的 区 域 管理 ) ;16MB~896MB 之 间 的 为 常规 区 域 。 高 于 896MB 的 就 称 为 高 端 内 存 区 域 了 。 


32 位 ARM Linux 的 内 核 空间 地 址 映射 与 x86 不 太一 样 ， 内 核 文档 Documentation/arm/memory.txt 给 出 了 ARM Linux 的 内 存 映 射 情 况 。0xffff0000~0xffffofff 是 “CPU vector page”， 即 向 量 表 的 地 
it, 0xffc00000~0xffefffff 是 DMA 内 存 映射 区 域 ，dma_alloc_xxx 族 函数 把 DMA 缓 冲 区 映射 在 这 一 段 ，VMALLOC_START~VMALLOC_END-1 是 vmalloc 和 ioremap 
置 ， 通过 “vmalloc=” 这 个 启动 参数 可 以 指定 ) ，PAGE_OFFSET~high_memory-1 是 DMA 和 正常 区 域 的 映射 
域 ，PKMAP_BASE~PAGE_OFFSET-1 是 高 端 内 存 映射 


区 域 (在 vmalloc 区 域 的 大 小 可 以 配 
Xi, MODULES VADDR~MODULES END-1 是 内 核 模块 区 
区 。 假 设 我 们 把 PAGE_OFFSET 定 义 为 3GB， 实 际 上 Linux 内 核 模块 位 于 3GB-16MB~3GB-2MB， 高 端 内 存 映射 区 则 通常 位 于 3GB-2MB~3GB。 


x] 


司 11.7 给 出 了 32 位 ARM 系 统 Linux 内 核 地 址 空间 中 的 内 核 模块 区 域 、 高 端 内 存 映射 区 、vmalloc、 向 量 表 区 域 等 。 我 们 假定 编译 内 核 的 时 候选 择 的 是 VMSPLIT_ 3G (3G/1G user/kernel split) 。 如 果 f 
户 选择 的 是 VMSPLIT_2G (2G/2G user/kernel split) ， 则 图 11.7 中 的 内 核 模 块 开始 于 2GB-16MB，DMA 和 常规 内 存 区 域 映射 区 也 开始 于 2GB。 


虚拟 地 址 


vmalloc 


物理 地 址 


iie DMA+ 常 规 区 域 
高 端 内 存 Ose, Ife EN 


高 端 内 存 映 射 区 3GB 


3GB-2MB 
模 
内 核 模块 3GB-16MB 


常规 :DMA 区 域 


图 11.7 32 位 ARM 系 统 中 Linux 内 核 的 地 址 空间 


ARM 系 统 的 Linux 之 所 以 把 内 核 模块 安置 在 3GB 或 者 2GB 附 近 的 16MB 范 围 内 ， 主 要 是 为 了 实现 内 核 模块 和 内 核 本 身 的 代码 段 之 间 的 短 跳 转 。 


对 于 ARM SoC 而 言 ， 如 果 芯 片 内 部 有 的 硬件 组 件 的 DMA3 引 警 访问 内 存 时 有 地 址 空间 限制 〈( 某 些 空间 访问 不 到 ) ， 比 如 假设 UART 控 制 器 的 DMA 只 能 访问 32MB， 那 么 这 个 低 32MB 就 是 DMA 区 域 ; 
32MB 到 高 端 内 存 地 址 的 这 段 称 为 常规 区 域 ， 再 之 上 的 称 为 高 端 内 存 区 域 。 


司 11.8 给 出 了 几 种 DMA、 常 规 、 高 端 内 存 区 域 可 能 的 分 布 ， 在 第 一 种 情况 下 ， 有 硬件 的 DMA 引 擎 不 能 访问 全 部 地 址 ， 
下 ， 没 有 硬件 的 DMA3 引 擎 不 能 访问 全 部 地 址 ， 且 内 存 较 大 而 无 法 全 部 在 内 核 空间 虚拟 地 址 映射 下 ， 则 常规 
内 核 空间 虚拟 地 址 映射 下 ， 则 高 端 内 存 


内 存 较 大 而 无 法 全 部 在 内 核 空间 虚拟 地 址 映射 下 ， 存 放 有 3 个 区 域 ， 第 二 种 情况 
区 域 实际 退化 为 0; 第 三 种 情况 下 ， 有 硬件 的 DMA 引 警 不 能 访问 全 部 地 址 ， 且 内 存 较 小 可 以 全 部 在 
区 域 实际 退化 为 0， 第 四 种 情况 下 ， 没 有 硬件 的 DMA 引 警 不 能 访问 全 部 地 址 ， 且 内 存 较 小 可 以 全 部 在 内 核 空间 虚 拟 地 址 映射 下 ， 则 常规 和 高 端 内 存 区 域 实际 退化 为 0。 


ca 
内 存 大 ， 没 有 硬件 的 DMA 


内 存 小 ， 有 硬件 的 DMA 
访问 地 址 受 限 


内 存 小 ， 没 有 硬件 的 DMA 


图 11.8 DMA、 常规、 高端 内 存 区 域 分 布 


图 11.9 所 示 ，DMA、 常 规 、 高 端 内 存 这 3 个 区 域 都 采用 buddy 算 法 进行 管理 ， 把 空闲 的 页 面 以 2 的 n 次 方 为 单位 进行 管理 ， 因 此 Linux 最 底层 的 内 存 申请 都 是 以 2" 为 单位 的 。Buddy 算 法 最 主要 的 优点 
是 避免 了 外 部 碎片 ， 任 何 时 候 区 域 里 的 空闲 内 存 都 能 以 2 的 n 次 方 进行 拆 分 或 合并 。 
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图 11.9 buddy 算 法 


`~ 


proc/buddyinfo 会 显示 每 个 区 域 里 面 2n 的 空闲 页 面 分 布 情况 ， 比 如 


Scat /proc/buddyinfo 
Node 0, zone MA 


œ 
a 
N 
x 
oo 
w 
e] 
o 


Node 0, zone Normal 2002 1252 524 187 183 TE 7 0 
0 1 1 


上 述 结果 显示 高 端 内 存 区 域 为 0，DMA 区 域 里 1 页 空闲 的 内 存 还 有 8 个 ， 连 续 2 页 空闲 的 有 5 个 ， 连 续 4 页 空闲 的 有 2 个 ， 以 此 类 推 ; 常规 区 域 里 面 1 页 空闲 的 还 有 2002 个 ， 连 续 2 页 空闲 的 有 1252 个 ， 以 此 
类 推 。 


对 于 内 核 物 理 内 存 映 射 区 的 虚拟 内 存 〈( 即 从 DMA 和 常规 区 域 映射 过 来 的 ) ， 使 用 virt to_phys () 可 以 实现 内 核 虚 拟 地址 转化 为 物理 地 址 。 与 之 对 应 的 函数 为 phys to virt () ， 它 将 物理 地 址 转化 为 内 
核 虚 拟 地 址 。 


注意 : 上 述 virt_to_phys () fephys_to_virt () 方法 仅 适用 于 DMA 和 常规 区 域 ， 高 端 内 存 的 虚拟 地 址 与 物理 地 址 之 间 不 存在 如 此 简单 的 换算 关系 。 


11.3 ”内 存 存 取 


11.3.1 ”用 户 空间 内 存 动态 申请 


在 用 户 空间 中 动态 申请 内 存 的 函数 为 malloc () ， 这 个 函数 在 各 种 操作 系统 上 的 使 用 都 是 一 致 的 ，malloc () 申请 的 内 存 的 释放 函数 为 free () 。 对 于 Linux 而 言 ，C 库 的 malloc () 函数 一 般 通 过 
brk () 和 mmap () 两 个 系统 调用 从 内 核 申 请 内 存 。 


由 于 用 户 空间 C 库 的 malloc 算 法 实际 上 具备 一 个 二 次 管理 能 力 ， 所 以 并 不 是 每 次 申请 和 释放 内 存 都 一 定 伴随 着 对 内 核 的 系统 调用 。 比 如 ， 代 码 清单 11.2 的 应 用 程序 可 以 从 内 核 拿 到 内 存 后 ， 立 即 调用 
free () ， 由 于 free () 之 前 调用 了 mallopt (M_TRIM_THRESHOLD, -1) 和 mallopt (M_MMAP_MAX, 0) ， 这 个 free () 并 不 会 把 内 存 还 给 内 核 ， 而 只 是 还 给 了 C 库 的 分 配 算法 (内 存 仍然 属于 这 个 
进程 ) ， 因 此 之 后 所 有 的 动态 内 存 申请 和 释放 都 在 用 户 态 下 进行 。 


代码 清单 11.2 用户 空 间 内 存 申请 以 及 mallopt 


l#include <malloc.h> 
2#include <sys/mman.h> 


3 
Atdefine SOMESIZE (100*1024*1024) // 100MB 
5 


6int main(int argc, char *argv[]) 
7{ 

8 unsigned char *buffer; 

9 int i; 


11 if (mlockall (MCL CURRENT | MCL FUTURE) ) 
12 mallopt (M TRIM THRESHOLD, 71); 
13 mallopt (M MMAP MAX, 0); 


15 buffer = malloc (SOMESIZE) ; 
16 if (!buffer) 
$3 exit (-1); 


19y% 
20 * Touch each page in this piece of memory to get it 
21 * mapped into RAM 

E 


23 for (i = 0; i < SOMESIZE; i += page size) 
24 buffer[i] = 0; z 

25 free (buffer); 

26 /* <do your RT-thing> */ 


28 return 0; 


另外 ，Linux 内 核 总 是 采用 按 需 调 页 (Demand Paging) ， 因 此 当 malloc () 返回 的 时 候 ， 虽 然 是 成 功 返 回 ， 但 是 内 核 并 没有 真正 给 这 个 进程 内 存 ， 这 个 时 候 如 果 去 读 申 请 的 内 存 ， 内 容 全 部 是 0， 这 
个 页 面 的 映射 是 只 读 的 。 只 有 当 写 到 某 个 页 面 的 时 候 ， 内 核 才 在 页 错误 后 ， 真 正 把 这 个 页 面 给 这 个 进程 。 


11.4 设备 MO 端口 和 MO 内 存 的 访问 


设备 通常 会 提供 一 组 寄存 器 来 控制 设备 、 读 写 设 备 和 获取 设备 状态 ， 即 控制 寄存 器 、 数 据 寄 存 器 和 状态 寄存 器 。 这 些 寄存 器 可 能 位 于 MO 空间 中 ， 也 可 能 位 于 内 存 空间 中 。 当 位 于 MO 空间 时 ， 通 常 被 称 
为 MO 端口 ; 当 位 于 内 存 空间 时 ， 对 应 的 内 存 空间 被 称 为 MO 内 存 。 


11.5 MO 内 存 静 态 映射 


在 将 Linux 移 植 到 目标 电路 板 的 过 程 中 ， 有 得 会 建立 外 设 MO 内 存 物理 地 址 到 虚拟 地 址 的 静态 映射 ， 这 个 映射 通过 在 与 电路 板 对 应 的 map_desc 结 构 体 数组 中 添加 新 的 成 员 来 完成 ，map_desc 结 构 体 的 定 
义 如 代码 清单 11.10 所 示 。 


代码 清单 11.10 ”map_desc 结 构 体 


lstruct map desc { 


2 unsigned long virtual; /* 虚拟 地 址 */ 

3 unsigned long pfn ; /* phys to_pfn(phy_addr) */ 
4 unsigned long length; i Kay * 

5 unsigned int type; /* 类 型 */ 


6}; 


例如 ， 在 内 核 arch/arm/mach-ixp2000/ixdp2x01.c 文 件 对 应 的 Intel IXDP2401 和 IXDP2801 平 台 上 包含 一 个 CPLD， 该 文件 中 就 进行 了 CPLD 物理 地 址 到 虚拟 地 址 的 静态 映射 ， 如 代码 清单 11.11 所 示 。 


代码 清单 11.11 在 电路 板 文件 中 增加 物理 地 址 到 虚拟 地 址 的 静态 映射 


lstatic struct map desc ixdp2x01 io desc _ _initdata = { 
.virtual = IXDP2X01 VIRT CBLD BASE, 
3 .pfn = _ _phys to pfn(IXDB2X01 PHYS CPLD BASE), 


4 . length 


= IXDP2X01_CPLD_REGION_SIZE, 


5 . type = MT_DEVICE 

6}; = 

7 

8static void _ init ixdp2x01_map_io(void) 
91{ 
10 ixp2000_map_io(); 
T1 iotable_init (&ixdp2x01_io_desc, 1); 
12} 


代码 清单 11.11 中 的 第 11 行 iotable_init () 是 最 终 建立 页 映射 的 函数 ， 它 通过 MACHINE_START、MACHINE_END 宏 赋值 给 电路 板 的 map_io () 函数 。 将 Linux 操 作 系统 移植 到 特定 平台 


在 一 个 已 经 移植 好 操作 系统 的 内 核 中 ， 驱 动工 程 师 可 以 对 非常 规 内 存 区 域 的 |/O 内 存 (外 设 控制 器 寄存 器 、MCU 内 部 集成 的 外 设 控制 器 寄存 器 等 ) 依照 电路 板 的 资源 使 


中 ， 但 是 目前 该 方法 已 经 不 值得 推荐 。 


11.6 DMA 


DMA 是 一 种 无 须 CPU 的 参与 就 可 以 让 外 设 与 系统 内 存 之 间 进 行 双向 数据 传输 的 硬件 机 制 。 使 有 


，MACHINE_ START (或 者 DT_MACHINE_ START) 、MACHINE_END 宏 之 间 的 定义 针对 特定 电路 板 而 设计 ， 其 中 的 map_io () 成 员 函 数 完成 MO 内存 的 静态 映射 。 


硬件 体系 结构 ， 特 别 是 外 设 的 总 线 技术 密切 相关 。 


情况 添加 到 map_desc 数 组 


DMA 可 以 使 系统 CPU 从 实际 的 MO 数据 传输 过 程 中 摆脱 出 来 ， 从 而 大 大 提高 系统 的 吞吐 率 。DMA 通 常 与 


DMA 方 式 的 数据 传输 由 DMA 控 制 器 (DMAC) 控制 ， 在 传输 期 间 ，CPU 可 以 并 发 地 执行 其 他 任务 。 当 DMA 结 束 后 ，DMA(C 通 过 中 断 通知 CPU 数据 传输 已 经 结束 ， 然 后 由 CPU 执行 相应 的 中 断 服务 程 


序 进 行 后 处 理 。 
11.7 Be 


外 设 可 处 于 CPU 的 内 存 空间 和 IMO 空 间 ， 除 x86 外 ， 庶 入 式 处 理 器 一 般 只 存在 内 存 空间 。 在 Linux 系 统 中 ， 为 MO 内 存 和 IMO 端 口 的 访问 提高 了 一 套 统一 的 方法 ， 访 问 流程 一 般 为 “上 


一 去 映射 一 释放 资源 ”。 


对 于 有 MMU 的 处 理 器 而 言 ， 


请 资源 一 映射 一 访问 


Linux 系 统 的 内 部 布局 比较 复杂 ， 可 直接 映射 的 物理 内 存 称 为 常规 内 存 ， 超 出 部 分 为 高 端 内 存 。kmalloc () 和 get free_pages() 申请 的 内 存在 物理 上 连续 ， 而 


vmalloc () 申请 的 内 存在 物理 上 不 连续 。 


DMA 操 作 可 能 导致 Cache 的 不 一 致 性 问题 ， 


要 。 


本 章 导读 


此 ， 对 于 DMA 缓 冲 ， 应 该 使 


dma_alloc_coherent () 等 方法 申请 。 在 DMA 操 作 中 涉及 总 线 地 址 、 物 理 地 址 和 虚拟 地 址 等 概念 ， 


第 12 章 Linux 设备 驱动 的 软件 架构 思想 


在 前 面 几 章 我 们 看 到 了 globalmem、globalfifo 这 样 类 型 的 简单 的 字符 设备 驱动 ， 但 是 ， 纵 观 Linux 内 核 的 源 代码 ， 读 者 几乎 找 不 到 有 如 此 简单 形式 的 驱动 。 


在 实际 的 Linux 驱 动 中 ，Linux 内 核 尽量 做 得 更 多 ， 以 便于 底 


12.1 节 从 总 体 上 分 析 了 Linux 驱 动 的 软件 架构 设计 的 出 发 点 。 


层 的 驱动 可 以 做 得 更 少 。 


而 且 ， 也 特别 强调 了 驱动 的 跨 平台 特性 。 


12.3 节 以 RTC、Framebuffer、input、tty、 混 杂 设备 驱动 等 为 例 ， 讲 解 了 驱动 分 层 、 核 心 层 与 底层 交互 的 一 般 方法 。 


12.4 节 分 析 了 Linux 设 备 驱动 中 3 


12.1 


Linux 不 是 为 了 某 单一 电路 板 而 设计 


Linux 驱 动 的 软件 架构 


Linux 设 备 驱动 非常 重视 软件 的 可 重 


(看 似 很 难 ， 


#ifdef BOARD XXX 


#define DM9000 BASE 0x10000 


#define DM9000_IRQ 8 
#elif defined (BOARD YYY) 


#define DM9000_BASE 0x20000 


#define DM9000_IRQ 7 
#elif defined (BOARD ZZZ) 


#define DM9000 BASE 0x30000 


#define DM9000_IRQ 9… 
#endif 


上 述 代码 主要 有 如 下 问题 : 


1) 此 段 代 码 看 起 来 面目 可 异 ， 如 果 有 100 个 板子 ， 就 要 if/else 100 次 ， 到 了 第 101 个 板子 ， 又 得 重新 加 if/else。 代 码 进行 着 简单 的 “复制 一 粘贴 ”， 


的 操作 系统 ， 它 可 以 支持 约 30 种 体系 结构 下 一 定数 量 的 硬件 ， 


和 跨 平台 能 力 。 辟 如， 如果 我 们 写 下 一 个 DM9000 网 卡 的 驱动 ， 
因为 每 个 板子 连接 PDM9000 的 基地 址 ， 中 断 号 什么 的 都 可 能 不 一 样 ) ， 驱 动 中 势必 会 有 类 似 这 样 的 代码 : 


机 与 外 设 驱动 分 离 的 设计 思想 ， 并 以 SPI 主 机 和 外 设 驱 动 为 例 进行 了 佐证 。 


因此 ， 它 的 驱动 架构 很 显然 不 能 像 RTOS 下 或 者 无 操作 系统 下 那么 小 儿科 的 做 法 。 


区 分 这 3 类 地 址 非常 重 


因此 ，Linux 内 核 势必 会 为 不 同 的 驱动 子 系统 设计 不 同 的 框架 。 


Linux 的 想法 是 这 个 驱动 应 该 最 好 一 行 都 不 要 改 就 可 以 在 任何 一 个 平台 上 跑 起 来 。 为 了 做 到 这 一 点 


“复制 一 粘贴 ” 式 的 简单 重复 通常 意味 着 代码 编写 


者 的 水 平 很 差 。 


2) 非常 难 做 到 一 个 驱动 支持 多 个 设备 ， 如 果 某 个 电路 板 上 有 两 个 DM9000 网 卡 ， 则 DM9000_BASE 这 个 宏 就 不 够 用 了 ， 此 时 势必 要 定义 出 来 DM9000_BASE 1, DM9000 BASE 2, DM9000_IRQ 1, 
DM9000_IRQ 2 类 的 宏 ; 定义 了 DM9000_BASE 1、DM9000_BASE 2 后 ， 如 果 又 有 第 3 个 DM9000 网 卡 加 到 板子 上 ， 前 面 的 代码 就 又 不 适用 了 。 


3) 依赖 于 make menuconfig 选 择 的 项 目 来 编译 内 核 ， 


因此 ， 在 不 同 的 硬件 平台 下 要 依赖 于 所 选择 的 BOARD_XXX、BOARD_YYY 选 项 来 决定 代码 逻辑 。 这 不 符合 ARM Linux 3.x 一 个 映像 适用 于 多 个 硬 


件 的 目标 。 实 际 上 ， 我 们 可 能 同时 选择 了 BOARD_XXX、BOARD YYY, BOARD ZZZ., 


我 们 按照 上 面 的 方法 编写 代码 的 时 候 ， 相 信 自 己 编 着 编 着 也 会 觉得 奇怪 ， 闻 到 了 代码 里 不 好 的 味道 。 这 个 时 候 ， 请 停 下 你 飞 奔 的 脚步 ， 等 一 等 你 的 灵魂 。 我 们 有 没有 办 法 把 设备 端的 信息 从 驱动 里 面 剥 
离 出 来 ， 让 驱动 以 某 种 标准 方法 拿 到 这 些 平台 信息 呢 Linux 总 线 、 设 备 和 驱动 模型 实际 上 可 以 做 到 这 一 点 ， 驱 动 只 管 驱动 ， 设 备 只 管 设备 ， 总 线 则 负责 匹配 设备 和 驱动 ， 而 驱动 则 以 标准 途径 拿 到 板 级 信息 ， 


这 样 ， 驱 动 就 可 以 放 之 四 海 而 皆 准 了 ， 如 图 12.1 所 示 。 


Linux 的 字符 设备 驱动 需要 编写 file_operations 成 员 函 数 ， 并 负责 处 理 阻塞 、 非 组 塞 、 多 路 复 用 、S1GIO 等 复杂 事物 。 但 是 ， 当 我 们 面 对 一 个 真实 的 硬件 驱动 时 ， 假 如 要 编写 一 个 按键 的 驱动 ， 作 为 一 


个 “懒惰 ”的 程序 员 ， 你 真 的 只 想 做 最 简单 的 工作 ， 艾 如 ， 收 到 一 个 按键 中 断 、 汇 报 一 个 按键 值 ， 至 于 什么 file_ operations、 几 种 MO 模型 ， 那 是 Linux 的 事情 ， 为 什么 要 我 管 Linux 也 是 程序 员 写 出 来 的 ， 因 


此 ， 程 序 员 怎么 想 ， 它 必然 要 怎么 做 。 于 是 ， 这 里 就 衍生 出 来 了 一 个 软件 分 层 的 想法 ， 尽 管 file_operations、IMMO 模 型 不 可 或 缺 ， 但 是 关于 此 部 分 的 代码 ， 全 世界 恐怕 所 有 的 输入 设备 都 是 一 样 的 ， 为 什么 不 
提炼 一 个 中 间 层 出 来 ， 把 这 些 事情 搞定 ， 也 就 是 在 底层 编写 驱动 的 时 候 ， 搞 定 具 体 的 硬件 操作 呢 ? 


将 软件 进行 分 层 设 计 应 该 是 软件 工程 最 基本 的 一 个 思想 ， 如 果 提 炼 一 个 input 的 核心 层 出 来 ， 把 跟 Linux 接 口 以 及 整个 一 套 input 事 件 的 汇报 机 制 都 在 这 里 面 实现 ， 如 图 12.2 所 示 ， 显 然 是 非常 好 的 。 
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图 12.1 Linux 设 备 和 驱动 的 分 离 
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图 12.2 ”Linux 了 驱动 的 分 层 


在 Linux 设 备 驱 动 框架 的 设计 中 ， 除 了 有 分 层 设计 以 外 ， 还 有 分 隔 的 思想 。 举 一 个 简单 的 例子 ， 假 设 我 们 要 通过 SPI 总 线 访问 某 外 设 ， 假 设 CPU 的 名 字 叫 XXX1，SPI 外 设 叫 YYY1。 在 访问 YYY1 外 设 的 时 
要 通过 操作 CPU XXX1 上 的 SPI 控 制 器 的 寄存 器 才能 达到 访问 SPI 外 设 YYY1 的 目的 ， 最 简单 的 代码 逻辑 是 : 


cpu_xxxl_spi_reg_write() 
cpu_xxxl_spi_reg_read() 
spi client yyyl work1 () 
cpu_xxxl_spi_reg_write() 
cpu_xxxl_spi_reg_read() 
spi_client_yyyl_work2 () 


如 果 按 照 这 种 方式 来 设计 驱动 ， 结 果 对 于 任何 一 个 SPI 外 设 来 讲 ， 它 的 驱动 代码 都 是 与 CPU 相关 的 。 也 就 是 说 ， 当 代码 用 在 CPU XXX1 上 的 时 候 ， 它 访问 XXX1 的 SPI 主 机 控制 寄存 器 ， 当 用 在 XXX2 上 的 


时 候 ， 它 访问 XXX2 的 SPI 主 机 控制 寄存 器 : 


cpu_xxx2_spi_reg_write() 
cpu_xxx2_spi_reg_read() 
spi_client_yyyl_ work1 () 
cpu_xxx2_spi_reg_write() 
cpu_xxx2_spi_reg_read() 
spi_client_yyyl_work2 () 


这 显然 是 不 被 接受 的 ， 因 为 这 意味 着 外 设 YYY1 用 在 不 同 的 CPU XXX1 和 XXX2 上 的 时 候 需要 不 同 的 驱动 。 同 时 ， 如 果 CPU XXX1 除 了 支持 YYY1 以 外 ， 还 要 支持 外 设 YYY2、YYY3、YYY4 等 ， 这 个 XXX 的 


代码 就 要 重复 出 现在 YYY1、YYY2、YYY3、YYY4 的 驱动 里 面 : 


cpu_xxxl_spi_reg_write() 
cpu_xxxl_spi_reg_read() 
spi_client_yyy2_work1 () 
cpu_xxxl_spi_reg_write() 
cpu_xxxl_spi_reg read () 
spi_client_yyy2_work2()--- 


按照 这 样 的 逻辑 ， 如 果 要 让 N 个 不 同 的 YYY 在 M 个 不 同 的 CPU XXX 上 跑 起 来 ， 需 要 M*N 份 代码 。 这 是 一 种 典型 的 强 耦合 ， 不 符合 软件 工程 “高 内 聚 、 低 耦合 ”和 “信息 隐蔽 ”的 基本 原则 。 


这 种 软件 架构 是 一 种 典型 的 网 状 耘 合 ， 网 状 耦合 一 般 不 太 适 合 人 类 的 思维 逻辑 ， 会 把 我 们 的 思维 搞 乱 。 对 于 网 状 耦合 的 M : N， 我 们 一 般 要 提炼 出 一 个 中 间 “1”， 让 M 与 “1” 耦 合 ，N 也 与 这 
个 “1” 耦 合 ， 如 图 12.3 所 示 。 


M 


N 
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那么 ， 我 们 可 以 用 如 图 12.4 所 示 的 思想 对 主机 控制 器 驱动 和 外 设 驱动 进行 分 离 。 这 样 的 结果 是 ， 外 设 YYY1、YYY2、YYY3、YYY4 的 驱动 与 主机 控制 器 XXX1、XXX2、XXX3、XXX4 的 驱动 不 相关 ， 主 机 
控制 器 驱动 不 关心 外 设 ， 而 外 设 驱 动 也 不 关心 主机 ， 外 设 只 是 访问 核心 层 的 通用 API 进 行 数据 传输 ， 主 机 和 外 设 之 间 可 以 进行 任意 组 合 。 


主机 控制 器 外 设 a 
A 驱动 驱动 
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图 12.4 Linux 设 备 驱 动 的 主机 、 外 设 驱动 分 离 


如 果 我 们 不 进行 如 图 12.4 所 示 的 主机 和 外 设 分 离 ， 外 设 YYY1、YYY2、YYY3 和 主机 XXX1、XXX2、XXX3 进 行 组 合 的 时 候 ， 需 要 9 个 不 同 的 驱动 。 设 想 一 共有 m 个 主机 控制 器 ，n 个 外 设 ， 分 离 的 结果 是 
需要 m+n 个 驱动 ， 不 分 离 则 需要 m*n 个 驱动 。 因 为 ，m 个 主机 控制 器 ，n 个 外 设 的 驱动 都 可 以 被 充分 地 复 用 了 。 


12.2 platform 设备 驱动 


12.2.1 platform 总 线 、 设 备 与 驱动 


在 Linux 2.6 以 后 的 设备 驱动 模型 中 ， 需 关心 总 线 、 设 备 和 驱动 这 3 个 实体 ， 总 线 将 设备 和 驱动 绑 定 。 在 系统 每 注册 一 个 设备 的 时 候 ， 会 寻找 与 之 匹配 的 驱动 ; 相反 的 ， 在 系统 每 注册 一 个 驱动 的 时 候 ， 
会 寻找 与 之 匹配 的 设备 ， 而 匹配 由 总 线 完成 。 


一 个 现实 的 Linux 设 备 和 驱动 通常 都 需要 挂 接 在 一 种 总 线 上 ， 对 于 本 身 依附 于 PCI、USB、I2C、SpPl 等 的 设备 而 言 ， 这 自然 不 是 问题 ， 但 是 在 嵌入 式 系统 里 面 ， 在 SoC 系 统 中 集成 的 独立 外 设 控制 器 、 挂 
接 在 SoC 内 存 空 间 的 外 设 等 却 不 依附 于 此 类 总 线 。 基 于 这 一 背景 ，Linux 发 明了 一 种 虚拟 的 总 线 ， 称 为 platform 总 线 ， 相 应 的 设备 称 为 platform_device， 而 驱动 成 为 platform_driver。 


注意 : 所 谓 的 platform_device 并 不 是 与 字符 设备 、 块 设备 和 网 络 设备 并 列 的 概念 ， 而 是 Linux 系 统 提 供 的 一 种 附加 手段 ， 例 如 ， 我 们 通常 把 在 SoC 内 部 集成 的 PC、RTC、LCD、 看 门 狗 等 控制 器 都 归纳 为 
platform_device， 而 它们 本 身 就 是 字符 设备 。platform_device 结 构 体 的 定义 如 代码 清单 12.1 所 示 。 


代码 清单 12.1 platform_device 结 构 体 


lstruct platform device { 

2 const char ~ *name; 

3 int id; 

4 boo id_auto; 

5 struct devicedev; 

6 u32 num_resources; 

7 struct resource *resource; 
8 


9 const struct platform_device_id *id entry; 
10 char *driver_override; /* Driver name to force a match */ 


12  /* MFD cell pointer */ 
13 struct mfd_cell *mfd_cell; 


15 /* arch specific additions */ 
16 struct pdev_archdata archdata; 


platform_driver 这 个 结构 体 中 包含 probe () . remove () 、 一 个 device_driver 实 例 、 电 源 管理 函数 suspend () ` resume () ， 如 代码 清单 12.2 所 示 。 


代码 清单 12.2 platform_driver 结 构 体 


lstruct platform driver { 

2 int (*probe) (struct platform device *); 

3 int (*remove) (struct platform_device *)z 

4 void (*shutdown) (struct platform device *); 

5 int (*suspend) (struct platform device *, pm message_t state); 
6 int (*resume) (struct platform device *); 

7 struct device_driver driver; ` 

8 const struct platform _device_id *id_table; 

9 bool prevent_deferred probe; oh 

10}; 


直接 填充 platform_driver 的 suspend () , resume () 做 电源 管理 回调 的 方法 目前 已 经 过 时 ， 较 好 的 做 法 是 实现 platform_driver 的 device_driver 中 的 dev_pm_ops 结 构 体 成 员 (后 续 的 Linux 电 源 管 理 


章节 会 对 此 进行 更 细致 的 介绍 ) ， 代 码 清单 12.3 给 出 了 device_driver 的 定义 。 


代码 清单 12.3 ”device_driver 结 构 体 


lstruct device driver { 


2 const char *name; 

3 struct bus_type *bus; 

4 

5 struct module *owner; 

6 const char *mod_name; /* used for built-in modules */ 
7 

8 bool suppress_bind attrs; /* disables bind/unbind via sysfs */ 
9 

10 const struct of_device_id *of match_table; 

11 const struct acpi_device_id *acpi_match_table; 

12 

13 int (*probe) (struct device *dev); 

14 int (*remove) (struct device *dev); 

15 void (*shutdown) (struct device *dev); 

16 int (*suspend) (struct device *dev, pm_message_t state); 

11 int (*resume) (struct device *dev); 


18 const struct attribute group **groups; 
19 

20 const struct dev_pm_ops *pm; 

21: 

22 struct driver_private *p; 

23}; 


与 platform_driver 地 位 对 等 的 i2c_driver、spi_driver、usb_driver、pci_driver 中 都 包含 了 device_driver 结 构 体 实例 成 员 。 它 其 实 描述 了 各 种 xxx_driver (xxx 是 总 线 名) 在 驱动 意义 上 的 一 些 共性 。 


系统 为 platform 总 线 定义 了 一 个 bus type 的 实例 platform_bus type， 其 定义 位 于 drivers/base/platform.c 下 ， 如 代码 清单 12.4 所 示 。 


代码 清单 12.4 platform 总 线 的 bus_ type 实例 platform_bus type 


lstruct bus type Platform bus type = { 


2 name = "platform", 

3 .dev_groups = platform_dev_groups, 

4 «match = platform match, 

5 .Uevent = platform uevent, 

6 .pm = &platform_dev_pm_ops, 

The 

这 里 要 重点 关注 其 match () 成 员 函 数 ， 正 是 此 成 员 函 数 确定 了 platform_device 和 platform_driver 之 间 是 如 何 进行 匹配 ， 如 代码 清单 12.5 所 示 。 


代码 清单 12.5 platform_bus type 的 match () 成 员 函 数 


lstatic int platform match (struct device *dev, struct device_driver *drv) 


2{ 

3 struct platform_device *pdev = to_platform_device (dev) ; 
4 struct platform driver *pdrv = to_platform_driver (drv); 
5 

6 /* Attempt an OF style match first */ 

7 if (of driver match device (dev, drv)) 

8 return 1; 

9 

10 /* Then try ACPI style match */ 

11 if (acpi driver match device (dev, drv)) 

12 return 1; 

13 

14 /* Then try to match against the id table */ 

15 if (pdrv->id table) 

16 return platform match id(pdrv->id table, pdev) != 
17 

18 /* fall-back to driver name match */ 

19 return (strcmp (pdev->name, drv->name) == 0); 

20} 


NULL; 


从 代码 清单 12.5 可 以 看 出 ， 匹 配 platform_device 和 platform_driver 有 4 种 可 能 性 ， 一 是 基于 设备 树 风格 的 匹配 ; 二 是 基于 ACPI 风 格 的 匹配 ; 三 是 匹配 1D 表 ( 即 platform_device 设 备 名 是 否 出 现在 
platform_driver 的 ID 表 内 ) ; 第 四 种 是 匹配 platform_device 设 备 名 和 驱动 的 名 字 。 


对 于 Linux 2.6ARM 平 台 而 言 ， 对 platform_device 的 定义 通常 在 BSP 的 板 文件 中 实现 ， 在 板 文件 中 ， 将 platform_device 归 纳 为 一 个 数组 ， 最 终 通过 platform_add_devices () 函数 统一 注册 。 
platform_add_devices () 函数 可 以 将 平台 设备 添加 到 系统 中 ， 这 个 函数 的 原型 为 : 


int platform add devices (struct platform device **devs, int num); 


该 函数 的 第 一 个 参数 为 平台 设备 数组 的 指针 ， 第 二 个 参数 为 平台 设备 的 数量 ， 


它 内 部 调用 了 platform_device register () 函数 以 注册 单个 的 平台 设备 。 


Linux 3.x 之 后 ，ARM Linux 不 太 喜 欢 人 们 以 编码 的 形式 去 填写 platform_device 和 注册 ， 而 倾向 于 根据 设备 树 中 的 内 容 自 动 展 开 platform_device。 


12.3 ”设备 驱动 的 分 层 思想 


12.3.1 ”设备 驱动 核心 层 和 例 化 


在 12.1 节 ， 我 们 已 经 从 感性 上 认识 了 Linux 驱 动 软件 分 层 的 意义 。 其 实 ， 在 分 


层 设计 的 时 候 ，Linux 内 核 大 量 使 用 了 


向 对 象 的 设计 


四 


ğ 
ği 


在 面向 对 象 的 程序 设计 中 ， 可 以 为 某 一 类 相似 的 事物 定义 一 个 基 类 ， 而 具体 的 事物 可 以 继承 这 个 基 类 中 的 函数 。 如 果 对 于 继承 的 这 个 事物 而 言 ， 某 成 员 函 数 的 实现 与 基 类 一 致 ， 那 它 就 可 以 直接 继承 基 
类 的 函数 ;相反 ， 它 也 可 以 重 写 (Overriding) ， 对 父 类 的 函数 进行 重新 定义 。 若 子 类 中 的 方法 与 父 类 中 的 某 方法 具有 相同 的 方法 名 、 返 回 类 型 和 参数 表 ， 则 新 方法 将 履 盖 原 有 的 方法 。 这 种 面向 对 象 
的 “多 态 ”设计 思想 极 大 地 提高 了 代码 的 可 重用 能 力 ， 是 对 现实 世界 中 事物 之 间 关 系 的 一 种 良好 呈现 。 


Linux 内 核 完全 是 由 C 语 言 和 汇编 语言 写成 ， 但 是 却 频繁 地 用 到 了 面向 对 象 的 设计 思想 。 在 设备 驱动 方面 ， 往 往 为 同类 的 设备 设计 了 一 个 框架 ， 而 框架 中 的 核心 层 则 实现 了 该 设备 通用 的 一 些 功能 。 同 样 


的 ， 如 果 具 体 的 设备 不 想 使 用 核心 层 的 函数 ， 也 可 以 重 写 。 举 个 例子 : 


return_type core_funca(xxx_device * bottom_dev, paraml_type paraml, paraml_type param2) 


if (bottom dev->funca) 
return bottom_dev->funca(paraml, param2) ; 


/* 核心 层 通用 的 funca 代 码 */ 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


} 


在 上 述 core funca 的 实现 中 ， 会 检查 底层 设备 是 否 重 写 了 funca () ， 如 果 重 写 了 ， 就 调用 底层 的 代码 ， 否 则 ， 直 接 使 用 通用 层 的 。 这 样 做 的 好 处 是 ， 核 心 层 的 代码 可 以 处 理 绝 大 多 数 与 该 类 设备 的 


funca () 对 应 的 功能 ， 只 有 少数 特殊 设备 需要 重新 实现 funca () 。 


再 看 一 个 例子 : 


return_type core_funca(xxx_device * bottom_dev, paraml_type paraml, paraml_type param2) 


/* 通 用 的 步骤 代码 R */ 
typea_dev_commonA () ; 


http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


/* 底层 操作 opsl */ 
bottom dev->funca ops1 (); 
/* 通 用 的 步骤 代码 B *7 


typea_dev_commonB () ; 


http:/7/www.hzcourse .com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


/* 底层 操作 ops2 */ 
bottom dev->funca ops2(); 
/* 通 用 的 步骤 代码 C_ 7 


typea_dev_commonB () ; 


http:/7/www.hzcourse .com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


/** 底层 操作 ops3*/ 
bottom dev->funca ops3(); 


上 述 代 码 假定 为 了 实现 funca () ， 对 于 同类 设备 而 言 ， 操 作 流程 一 致 ， 都 要 经 过 “通用 代码 A、 底 层 ops1、 通 用 代码 B、 底 层 ops2、 通 用 代码 C、 底 层 ops3” 这 几 步 ， 分 层 设计 带 来 的 明显 好 处 是 ， 对 


于 通用 代码 A、B、C， 具体 的 底层 驱动 不 需要 再 实现 ， 而 仅仅 只 要 关心 其 底层 的 操作 ops1、ops2、ops3 则 可 。 


12.5 明 确 反映 了 设备 驱动 的 核心 层 与 具体 设备 驱动 的 关系 ， 实 际 上 ， 这 种 分 


网 


A 类 设备 实例 1 


A 类 设备 子 类 1 的 核心 层 


A 类 设备 子 类 1 的 实例 1 A 


屋 可 能 只 有 两 层 ( 见 图 12.5a) ， 也 可 能 是 多 层 的 (图 12.5b) . 


A 类 设备 的 核心 层 


A 类 设备 实例 2 A 类 设备 实例 3 


A 类 设备 的 核心 层 


A 类 设备 子 类 2 的 核心 层 


类 设备 子 类 1 的 实例 2 A 类 设备 子 类 2 的 实例 1 


b) 


图 12.5 ”Linux 设备 驱动 的 分 层 


章节 会 对 


这 样 的 分 层 化 设计 在 Linux 的 input、RTC、MTD、12C、SPI、tty、USB 等 诸多 类 型 设备 驱动 中 屡见不鲜 。 下 面 的 几 小 节 以 input、RTC、Framebuffer 等 为 例 先进 行 一 番 讲 解 ， 当 然 ， 后 续 的 章节 会 


与 几 个 大 的 设备 类 型 对 应 的 驱动 层次 进行 更 详细 的 分 析 。 


12.4 ”主机 驱动 与 外 设 驱 动 分 离 的 设计 思想 


12.4.1 主机 驱动 与 外 设 驱 动 分 离 


Linux 中 的 SPI、I2C、USB 等 子 系统 都 利用 了 典型 的 把 主机 驱动 和 外 设 驱 动 分 离 的 想法 ， 让 主机 端 只 负责 产生 总 线 上 的 传输 波形 ， 而 外 设 端 只 是 通过 标准 的 AP 来 让 主机 端 以 适当 的 波形 访问 自身 。 因 此 
这 里 面 就 涉及 了 4 个 软件 模块 : 


1) 主机 端的 驱动 。 根 据 具体 的 |*C、SPI、USB 等 控制 器 的 硬件 手册 ， 操 作 具 体 的 |*%C、SPI、USB 等 控制 器 ， 产 生 总 线 的 各 种 波形 。 


2) 连接 主机 和 外 设 的 纽带 。 外 设 不 直接 调用 主机 端的 驱动 来 产生 波形 ， 而 是 调 一 个 标准 的 API。 由 这 个 标准 的 API 把 这 个 波形 的 传输 请 求 间接 “转发 ”给 了 具体 的 主机 端 驱 动 。 当 然 ， 在 这 里 ， 最 好 把 
关于 波形 的 描述 也 以 某 种 数据 结构 标准 化 。 


3) 外 设 端的 驱动 。 外 设 接 在 |2xC、SPI、USB 这 样 的 总 线 上 ， 但 是 它们 本 身 可 以 是 触摸 屏 、 网 卡 、 声 卡 或 者 任意 一 种 类 型 的 设备 。 我 们 在 相关 的 i2c_driver、spi_driver、usb_driver 这 种 xxx_driver 的 
probe () 函数 中 去 注册 它 具 体 的 类 型 。 当 这 些 外 设 要 求 1xXC、SPI、USB 等 去 访问 它 的 时 候 ， 它 调用 “连接 主机 和 外 设 的 纽带 ”模块 的 标准 APl。 


4) 板 级 逻辑 。 板 级 逻辑 用 来 描述 主机 和 外 设 是 如 何 互 联 的 ， 它 相当 于 一 个 “路 由 表 ”。 假 设 板 子 上 有 多 个 SPI 控 制 器 和 多 个 SPI 外 设 ， 那 究竟 谁 接 在 谁 上 面 管理 互联 关系 ， 既 不 是 主机 端的 责任 ， 也 不 是 
外 设 端 的 责任 ， 这 属于 板 级 逻辑 的 责任 。 这 部 分 通常 出 现在 arch/arm/mach-xxx 下 面 或 者 arch/arm/boot/dts 下 面 。 


什么 叫 良好 的 软件 设计 一 言 以 蔽 之 ， 让 正确 的 代码 出 现在 正确 的 位 置 。 不 要 在 错误 的 时 间 、 错 误 的 地 点 ， 编 写 一 段 错误 的 代码 。 在 LKML 中 ， 关 于 代码 出 现在 错误 的 位 置 ， 常 见 的 台词 是 代码 “out of 


place” 。 


Linux 通 过 上 述 的 设计 方法 ， 把 一 堆 杂 乱 不 友好 的 代码 变 成 了 4 个 轻 量 级 的 小 模块 ， 每 个 模块 都 各 得 其 所 。 每 个 模块 都 觉得 很 “ 爽 ”， 站 在 主机 端 想 一 想 ， 它 其 实 也 是 很 “ 爽 ” 的 ， 因 为 它 的 职责 本 来 就 
是 产生 波形 ， 而 现在 我 们 就 让 它 只 产生 波形 不 干 别 的 ; 站 在 外 设 端 想 一 想 ， 它 也 变 得 一 身 轻 松 ， 因 为 它 根本 就 不 需要 知道 自己 接 在 主机 的 哪个 控制 器 上 ， 根 本 不 关心 对 方 是 张 三 、 李 四 、 王 五 还 是 六 麻子 ; 
站 在 板 级 逻辑 的 角度 上 ， 你 做 了 一 个 板子 ， 自 己 自然 要 知道 谁 接 在 谁 上 面 了 。 


下 面 以 SPI 子 系统 为 例 来 展开 说 明 ， 后 续 章节 的 |*C、USB 等 是 类 似 的 。 


125 总结 


真实 生活 中 的 驱动 并 不 像 第 6~11 章 里 那样 的 驱动 ， 它 往往 包含 了 platform、 分 层 、 分 离 等 诸多 概念 ， 因 此 ， 学 习 和 和 领悟 第 12 章 的 内 容 是 我 们 将 驱动 的 理论 用 于 工程 开发 的 必要 环节 。Linux 内 核 目前 有 
百 多 个 驱动 子 系统 ， 一 个 个 去 学 肯定 是 不 现实 的 ， 在 方法 上 也 是 错误 的 。 我 们 要 掌握 其 规律 ， 以 不 变 应 万 变 ， 以 无 招 胜 有 招 。 


第 13 章 ”Linux 块 设备 驱动 


本 章 导读 


块 设备 是 与 字符 设备 并 列 的 概念 ， 这 两 类 设备 在 Linux 中 的 驱动 结构 有 较 大 差异 ， 总 体 而 言 ， 块 设备 驱动 比 字符 设备 驱动 要 复杂 得 多 ， 在 MO 操作 上 也 表现 出 极 大 的 不 同 。 缓 冲 、IMO 调 度 、 请 求 队列 等 都 
是 与 块 设备 驱动 相关 的 概念 。 本 章 将 详细 讲解 Linux 块 设备 驱动 的 编程 方法 。 


13.1 节 讲解 块 设备 的 MO 操作 特点 ， 分 析 字 符 设备 与 块 设备 在 MO 操作 上 的 差异 。 


13.2 节 从 整体 上 描述 Linux 块 设备 驱动 的 结构 ， 分 析 主 要 的 数据 结构 、 函 数 及 其 关系 。 
13.3~13.5 节 分 别 讲解 块 设 备 驱动 模块 的 加 载 与 卸载 、 打 开 与 释放 和 ioctl () 函数 


13.6 节 非常 重要 ， 讲 述 了 块 设备 /O 操 作 所 依赖 的 请 求 、bio 处 理 方法 。 


13.7 节 在 13.1~13.6 节 所 讲解 内 容 的 基础 上 ， 总 结 在 Linux 下 块 设备 的 读 写 流程 ， 实 现 了 块 设备 驱动 的 一 个 具体 实例 , 即 vmem _disk 驱 动 。 


13.8 节 简单 地 讲解 了 Linux 的 MMC 子 系统 以 及 它 与 块 设备 的 关系 。 


13.1 块 设备 的 MO 操作 特点 


字符 设备 与 块 设备 MO 操作 的 不 同 如 下 。 


1) 块 设备 只 能 以 块 为 单位 接收 输入 和 返回 输出 ， 而 字符 设备 则 以 字 节 为 单位 。 大 多 数 设 备 是 字符 设备 ， 因 为 它们 不 需要 缓冲 而 且 不 以 固定 块 大 小 进行 操作 。 


此 它们 可 以 选择 以 什么 顺序 进行 响应 ， 字 符 设备 无 须 缓冲 且 被 直接 读 写 。 对 于 存储 设备 而 言 ， 调 整 读 写 的 顺序 作用 巨大 ， 因 为 在 读 写 连 续 的 扇 区 的 存储 速度 


Xx] 


2) 块 设备 对 于 I/O 请 求 有 对 应 的 缓冲 
比分 离 的 扇 区 更 快 。 


3) 字符 设备 只 能 被 顺序 读 写 ， 而 块 设备 可 以 随机 访问 。 


虽然 块 设备 可 随机 访问 ， 但 是 对 于 磁盘 这 类 机 械 设 备 而 言 ， 顺 序 地 组 织 块 设备 的 访问 可 以 提高 性 能 ， 如 图 13.1 所 示 ， 对 扇 区 1、10、3、2 的 请 求 被 调整 为 对 扇 区 1、2、3、10 的 请 求 。 


在 Linux 中 ， 我 们 通常 通过 磁盘 文件 系统 EXT4、UBIFS 等 访问 磁盘 ， 但 是 磁盘 也 有 一 种 原始 设备 的 访问 方式 ， 如 直接 访问 /dev/sdb1 等 。 所 有 的 EXT4、UBIFS、 原 始 块 设备 又 都 工作 于 VFS 之 下 ， 而 
EXT4、UBIFS、 原 始 块 设备 之 下 又 包含 块 MO 调 度 层 以 进行 排序 和 合并 ( 见 图 13.2) 。 
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图 13.2 Linux 块 设备 子 系统 


I/O 调 度 层 的 基本 目的 是 将 请 求 按照 它们 对 应 在 块 设备 上 的 扇 区 号 进行 排列 ， 以 减少 磁头 的 移动 ， 提 高 效率 。 


13.2 ”Linux 块 设备 驱动 结构 


13.2.1 block_device_operations 结 构 体 


在 块 设备 驱动 中 ， 有 一 个 类 似 于 字符 设备 驱动 中 file_operations 结 构 体 的 block_device_operations 结 构 体 ， 它 是 对 块 设备 操作 的 集合 ， 定 义 如 代码 清单 13.1 所 示 。 


代码 清单 13.1 block_device_operations 结 构 体 


lstruct block_device_operations { 

2 int (*open) (struct block device *, fmode t); 

3 void (*release) (struct gendisk *, fmode t); 

4 int (*rw page) (struct block device *, sector t, struct page *, int rw); 
5 int (*ioctl) (struct block_device *, fmode_t, unsigned, unsigned long); 
6 int (*compat_ioctl) (struct block device *, fmode_t, unsigned, unsigned long); 
7? int (*direct_access) (struct block_device *, sector t, 

8 void **, unsigned long *); 

9 unsigned int (*check_events) (struct gendisk *disk, 

10 unsigned int clearing); 

11 /* ->media_changed() is DEPRECATED, use ->check events() instead */ 

12 int (*media_changed) (struct gendisk *); 

13 void (*unlock_native_capacity) (struct gendisk *); 

14 int (*revalidate_disk) (struct gendisk *); 

15 int (*getgeo) (struct block_device *, struct hd_geometry *); 

16 /* this callback is with swap_lock and sometimes page table lock held */ 
17 void (*swap slot free notify) (struct block_device *, unsigned long); 

18 struct module *owner; 

19}; 


下 面 对 其 主要 成 员 函 数 进 行 分 析 。 


1. 打 开 和 释放 


int (*open) (struct block_device *, fmode_t); 
void (*release) (struct gendisk *, fmode t); 


与 字符 设备 驱动 类 似 ， 当 设备 被 打开 和 关闭 时 将 调用 它们 。 


2.MO 控 制 


int (*ioctl) (struct block device *, fmode_t, unsigned, unsigned long); 
int (*compat_ioctl) (struct block_device *, fmode_t, unsigned, unsigned long); 


上 述 函 数 是 ioctl () 系统 调用 的 实现 ， 块 设备 包含 大 量 的 标准 请 求 ， 这 些 标 准 请 求 由 Linux 通 用 块 设备 层 处 理 ， 因 此 大 部 分 块 设备 驱动 的 ioctl () 函数 相当 短 。 当 一 个 64 位 系统 内 的 32 位 进程 调用 
ioctl () 的 时 候 ， 调 用 的 是 compat ioctl () 。 


3. 介 质 改 变 


int (*media_changed) (struct gendisk *gd); 


被 内 核 调用 以 检查 驱动 器 中 的 介质 是 否 已 经 改变 ， 如 果 是 ， 则 返回 一 个 非 0 值 ， 否 则 返回 0。 这 个 函数 仅 适 用 于 支持 可 移动 介质 的 驱动 器 ， 通 常 需要 在 驱动 中 增加 一 个 表示 介质 状态 是 否 改 变 的 标志 变 
量 ， 非 可 移动 设备 的 驱动 不 需要 实现 这 个 方法 。 


unsigned int (*check_events) (struct gendisk *disk, 
unsigned int clearing); 


media_changed () 这 个 回调 函数 目前 已 经 过 时 了 ， 已 被 check_events () 替代 。Tejun Heo<tjQ@kernel.org> 在 内 核 提交 了 一 个 补丁 ， 完 成 了 “implement in-kernel gendisk events 
handling” 的 工作 ， 这 个 补丁 对 应 的 commit ID 是 77ea887e。 老 的 Linux 在 用 户 空间 里 轮 询 可 移动 磁盘 介质 是 否 存 在 ， 而 新 的 内 核 则 在 内 核 空间 里 轮 询 。check_events () 函数 检查 有 没有 挂 起 的 事件 ， 如 
果 有 DISK_EVENT_MEDIA_CHANGE 和 DISK_EVENT_EJECT_REQUEST 事 件 ， 就 返回 。 


4. 使 介质 有 效 


int (*revalidate_disk) (struct gendisk *gd); 


revalidate_disk () 函数 被 调用 来 响应 一 个 介质 改变 ， 它 给 驱动 一 个 机 会 来 进行 必要 的 工作 以 使 新 介质 准备 好 。 


5. 获 得 驱动 器 信息 


int (*getgeo) (struct block_device *, struct hd geometry *); 


该 函数 根据 驱动 器 的 几何 信息 填充 一 个 hd_geometry 结 构 体 ，hd_geometry 结 构 体 包含 磁头 、 扇 区 、 柱 面 
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于 include/linux/hdreg.h 头 文件 中 。 


6. 模 块 指针 


struct module *owner; 


一 个 指向 拥有 这 个 结构 体 的 模块 的 指针 ， 它 通常 被 初始 化 为 THIS_MODULE。 


13.3 Linux 块 设备 驱动 的 初始 化 


在 块 设备 的 注册 和 初始 化 阶段 ， 与 字符 设备 驱动 类 似 ， 块 设备 驱动 要 注册 它们 自己 到 内 核 ， 申 请 设备 号 ， 完 成 这 个 任务 的 函数 是 register_blkdev () ， 其 原型 为 : 


int register_blkdev(unsigned int major, const char *name) ; 


major 参 数 是 块 设备 要 使 用 的 主 设备 号 ，name 为 设备 名 ， 它 会 显示 在 /proc/devices 中 。 如 果 major 为 0， 内 核 会 自动 分 配 一 个 新 的 主 设备 号 ，register_ blkdev () 函数 的 返回 值 就 是 这 个 主 设备 号 。 如 
SRregister_blkdev () 返回 一 个 负 值 ， 表 明 发 生 了 一 个 错误 。 


与 register_blkdev () 对 应 的 注销 函数 是 unregister_blkdev () ， 其 原型 为 : 


int unregister blkdev (unsigned int major, const char *name) 7 


这 里 ， 传 递 给 register_blkdev () 的 参数 必须 与 传递 给 register_blkdev () 的 参数 匹配 ， 否 则 这 个 函数 返回 -EINVAL。 


除 此 之 外 ， 在 块 设备 驱动 初始 化 过 程 中 ， 通 常 需要 完成 分 配 、 初 始 化 请 求 队列 ， 绑 定 请 求 队 列 和 请 求 处 理 函 数 的 工作 ， 并 且 可 能 会 分 配 、 初 始 化 gendisk,， 给 gendisk 的 major、fops、queue 等 成 员 赋 
值 ， 最 后 添加 gendisk。 


代码 清单 13.6 演 示 了 一 个 典型 的 块 设备 驱动 的 初始 化 过 程 ， 其 中 包含 了 register_blkdev () 、blk_init queue () 和 add _ disk () 的 工作 。 


代码 清单 13.6 ” 块 设备 驱动 的 初始 化 


lstatic int xxx init (void) 
2{ 


3 /* 块 设备 驱动 注册 */ 

4 if (register blkdev (XXX MAJOR, "xxx")) { 
5 err = -EIO; T 

6 goto out; 

7 

8 


} 


9 /* 请 求 队列 初始 化 */ 

10 xxx queue = blk init queue (xxx request, xxx lock); 
11 if (!xxx queue) = ~ 

12 goto out_queue; 

13 blk queue max hw sectors (xxx queue, 255); 

14 blk queue logical block size(xxx queue, 512); 


16 /* gendisk 初 始 化 */ 

17 xxx disks->major = XXX_MAJOR; 
18 xxx disks->first minor = 0; 
19 xxx disks->fops = &xxx op; 
20 xxx disks->queue = xxx queue; 


21 sprintf (xxx disks->disk name, "xxx%d", i); 
22 set capacity (xxx disks, xxx size *2); 
23 add_disk(xxx_disks); /* 添加 gendisk */ 


25 return 0; 


26 out queue: unregister_blkdev(XXX_MAJOR, "xxx"); 


27 out: put disk (xxx disks); 
28 blk cleanup queue (xxx queue); 


30 return -ENOMEM; 


上 述 代码 第 13 行 的 blk_queue_max_hw_sectors () 用 于 通知 通用 块 层 和 1/O 调 度 器 该 请 求 队列 支持 的 每 个 请 求 中 能 够 包含 的 最 大 扇 区 数 ， 第 14 行 blk_queue_logical_block_size () 则 用 于 告知 该 请 求 


队列 的 逻辑 块 大 小 。 


= 


2) 删除 对 gendisk 的 引 


Ww 


13.4” 块 设备 的 打开 与 释放 


块 设备 驱动 的 open () 函数 和 


在 块 设备 驱动 的 卸载 过 程 中 完成 与 模块 加 载 函数 相反 的 工作 。 
清除 请 求 队列 ， 使 用 blk_cleanup_queue () 。 


， 使 用 put_disk () 。 


删除 对 块 设备 的 引用 ， 注 销 块 设备 驱动 ， 使 用 unregister_blkdev () . 


字符 设备 驱动 的 对 等 体 不 太 相似 ， 前 者 不 以 相关 的 inode 和 file 结 构 体 指针 作为 参数 (因为 file 和 inode 概 念 位 于 文件 系统 层 中 ) 。 在 open () 中 我 们 可 以 通过 


block device 参 数 bdev 获 取 private data、 在 release () 函数 中 则 通过 gendisk 参 数 disk 获 取 ， 如 代码 清单 13.7 所 示 。 


代码 清单 13.7 ”在 块 设备 的 open () /release () 函数 中 获取 private_data 


lstatic int xxx_open (struct block_device *bdev, fmode_t mode) 


2{ 


3 struct xxx_dev *dev = bdev->bd_disk->private_data; 
4 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


5 return 0; 
6} 
7 


8static void xxx_release(struct gendisk *disk, fmode_t mode) 


9{ 


10 struct xxx dev *dev = disk->private data; 
11 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/0EBPS/Text/... 


12} 


13.5” 块 设备 驱动 的 ioctl 函 数 


与 字符 设备 驱动 一 样 ， 块 设备 可 以 包含 一 个 ioctl () 函数 以 提供 对 设备 的 MO 控 制 能 力 。 实 际 上 ， 高 层 的 块 设备 层 代码 处 理 了 绝 大 多 数 VO 控 制 ， 如 BLKFLSBUF、BLKROSET、BLKDISCARD、 
HDIO_GETGEO、BLKROGET 和 BLKSECTGET 等 ， 因 此 ， 在 具体 的 块 设备 驱动 中 通常 只 需要 实现 与 设备 相关 的 特定 ioctl 命 令 。 例 如 ， 源 代码 文件 为 drivers/block/floppy.c 实 现 了 与 软驱 相关 的 命令 (如 


FDEJECT、FDSETPRM、FDFMTTRK 等 ) 。 


Linux MMC 子 系统 支持 一 个 |OCTL 命 令 MMC IOC_CMD，drivers/mmc/card/block.c 实 现 了 这 个 命令 的 处 理 ， 如 代码 清单 13.8 所 示 。 


代码 清单 13.8 Linux MMC 块 设备 的 ioctl () 函数 


1static int mmc blk ioctl (struct block_device *bdev, fmode_t mode, 


int ret = -EINVAL; 
if (cmd == MMC_IOC_CMD) 


return ret; 


OBIHTORWN 


unsigned int cmd, unsigned long arg) 


ret = mme blk ioctl cmd (bdev, (struct mmc_ioc_cmd _ user *)arg); 


13.6” 块 设备 驱动 的 |/O 请 求 处 理 


13.6.1 “使 用 请 求 队列 


块 设备 驱动 在 使 用 请 求 队列 的 场景 下 ， 会 


blk_init_queue () 初始 化 request queue， 而 该 函数 的 第 一 个 参数 就 是 请 求 处 理 函 数 的 指针 。request_queue 会 作为 参数 传递 给 我 们 在 调 


blk_init queue () 时 指定 的 请 求 处 理 函 数 ， 块 设备 驱动 请 求 处 理 函 数 的 原型 为 : 


static void xxx_req(struct request_queue *q) 


这 个 函数 不 能 由 驱动 自己 调用 ， 只 有 当 内 核 认为 是 时 候 让 驱动 处 理 对 设备 的 读 写 等 操作 时 ， 它 才 调用 这 个 函数 。 该 函数 的 主要 工作 就 是 发 起 与 request 对 应 的 块 设备 MO 动作 (但 是 具体 的 MO 工作 不 一 


za 
za 


定 要 在 该 函数 内 同步 完成 ) 。 代 码 清单 13.9 给 出 了 一 个 简单 的 请 求 处 理 函 数 的 例子 ， 它 来 源 于 drivers/memstick/core/ms_block.c。 


代码 清单 13.9 ” 块 设备 驱动 请 求 函数 例 程 


1static void msb_submit_req(struct request_queue *q) 
2{ 


3 struct memstick_dev *card = q->queuedata; 

4 struct msb data *msb = memstick_get_drvdata (card) ; 

5 struct request *req = NULL; 

6 

7 dbg_verbose ("Submit request"); 

8 

9 if (msb->card_dead) { 

10 dbg ("Refusing requests on removed card"); 

Ti: 

12 WARN_ON(!msb->io_queue_stopped) ; 

13 

14 while ((req = blk_fetch_request(q)) != NULL) 

15 _blk end _ request all (req, -ENODEV) ; 

16 return; 

17 } 

18 

19 if (msb->req) 

20 return; 

21 

22 if (!msb->io_queue_stopped) 

23 queue_work (msb->io_queue, &msb->io_work) ; 

24} 

上 述 代 码 第 14 行 使 用 blk_fetch_request () 获得 队列 中 第 一 个 未 完成 的 请 求 ， 由 于 msb->card_dead 成 立 ， 实 际 上 我 们 处 理 不 了 该 请 求 ， 所 以 就 直接 通过 _blk_end request all (req, -ENODEV) 
返回 错误 了 。 


正常 的 情况 下 ， 通 过 queue work (msb->io queue, &msb->io work) 启动 工作 队列 执行 msb io_work (struct work_struct*work) 这 个 函数 ， 它 的 原型 如 代码 清单 13.10 所 示 。 


代码 清和 


£13.10 msb_io work () 完成 请 求 处 理 


Istatic void msb io work(struct work struct *work) 


21 


a 
Oo aaw 必 ww 


68 
69} 


struct msb_data *msb = container_of (work, struct msb_data, io work); 


int page, error, len; 
sector_t lba; 
unsigned long flags; 


struct scatterlist *sg = msb->prealloc_sg; 


dbg_verbose("IO: work started"); 


while (1) { 


spin_lock_irgsave (&msb->q_lock, flags); 


if (msb->need flush cache) { 
msb->need_flush_cache = false; 
spin_unlock_irgrestore (émsb->q_lock, flags); 
msb cache flush (msb) ; 
continue; 


} 


if (!msb->req) 


{ 


msb->req = blk fetch _request (msb->queue) ; 
if (!msb->req) { z 

dbg_verbose("IO: no more requests exiting"); 
spin unlock_irqrestore (&msb->q_lock, flags); 


} 


return; 


spin_unlock_irgrestore (&msb->q_lock, flags); 


/* If card was removed meanwhile */ 


if (!msb->req) 
return; 


/* process the request */ 
dbg_verbose("IO: processing new request"); 
blk_rq_map_sg(msb->queue, msb->req, sg); 


lba = blk_rq pos (msb->req) ; 


sector div (lba, msb->page_size / 512); 


page = do div(lba, msb->pages_in block); 


if (rq_data_dir(msb->req) == READ) 
= msb_do_read_request (msb, lba, page, sg, 
blk rq bytes (msb->req), &len); 


error 


else 


error = msb do write request (msb, lba, page, sg, 
blk rq bytes (msb->req), &len); 


spin_lock_irgsave (&msb->q_lock, flags); 


if (len) 


if (!_blk end request (msb->req, 0, len)) 
msb->req = NULL; 


if (error && msb->req) 
dbg_verbose("IO: ending one sector of the request with error"); 


{ 


if (!_ blk end request (msb->req, error, msb->page_size) ) 


} 


if (msb->req) 


msb->req 


= NULL; 


dbg_verbose("IO: request still pending"); 


spin_unlock_irgrestore (&msb->q_lock, flags); 


在 读 写 无 错 的 情况 下 ， 第 55 行 调 
>page size) ， 把 出 错 原因 


第 38 行 调用 的 blk_rq map sg () 


函数 实现 了 


的 _blk_end request (msb->req, 0, len) 实际 上 告诉 了 上 层 该 请 求 处 理 完成 。 如 果 读 写 有 错 ， 则 调用 _blk_end request (msb->req, error, msb- 
作为 第 2 个 参数 传 入 上 层 。 


block/blk-merge.c 文 件 。 代 码 清香 


臣 13.11 列 出 了 该 函数 的 实现 中 比较 精华 的 部 分 ， 它 通过 rq_ for_each_bio () 、bio for each segment () 来 遍历 所 有 


的 bio， 以 及 所 有 的 片段 ， 将 所 有 与 某 请 求 相关 的 页 组 成 一 个 scatter/gather 的 列表 。 


代码 清单 13.11 blk_rq_map_sg 


() 函数 


lint blk rq map sg(struct request_queue *q, struct request *rq, 
struct scatterlist *sglist) 


struct scatterlist *sg = NULL; 
int nsegs = 0; 
if (rq->bio) 
nsegs = _ blk bios_map_sg(q, rq->bio, sglist, &sg); 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/0EBPS/Text/... 


12static int _ blk bios_map_sg (struct request_queue *q, struct bio *bio, 
struct scatterlist *sglist, 
struct scatterlist **sg) 


13: 
14 
15{ 
16 


struct bio vec bvec, 


bvprv = { NULL }; 


17 struct bvec_iter iter; 


18 int nsegs, Cluster; 

19 

20 nsegs = 0; 

21 cluster = blk queue cluster (q) ; 

22 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
23 for_each_bio (bio) ~ 
24 bio for each segment (bvec, bio, iter) 

25 ~ blk segment map sg(q, &bvec, sglist, &bvprv, sg, 
26 énsegs, &cluster) ; 

27 

28 return nsegs; 

29} 

30 


3lstatic inline void 
32__blk_segment_map_sg(struct request_queue *q, struct bio vec *bvec, 


33 struct scatterlist *sglist, struct bio vec *bvprv, 
34 struct scatterlist **sg, int *nsegs, int *cluster) 
35{ 

36 

37 int nbytes = bvec->bv_len; 

38 

39 if (*sg && *cluster) { 

40 if ((*sg)—>length + nbytes > queue max segment size(q) ) 
41 goto new_segment; a 

42 

43 if (!BIOVEC_PHYS MERGEABLE (bvprv, bvec) ) 

44 goto new_segment; 

45 if (!BIOVEC_SEG BOUNDARY (q, bvprv, bvec) ) 

46 goto new_segment; 

47 

48 (*sg)->length += nbytes; 

49 } else { 

50new_segment: 

7 > if (!*sg) 

52 *sg = sglist; 

53 else { 

54 Pia 

55 * If the driver previously mapped a shorter 
56 * list, we could see a termination bit 

57 * prematurely unless it fully inits the sg 

58 * table on each mapping. We KNOW that there 
59 * must be more entries here or the driver 

60 * would be buggy, so force clear the 

61 * termination bit to avoid doing a full 

62 * sg_init_table() in drivers for each command. 
63 x7 

64 sg_unmark_end (*sg) ; 

65 *sg = sg_next (*sg); 

66 } 

67 

68 sg_set_page(*sg, bvec->bv_page, nbytes, bvec->bv_offset) ; 
69 (*nsegs) ++; 

70 } 

71 *bvprv = *bvec; 


一 般 情况 下 ， 若 外 设 支 持 scatter/gather 模 式 的 DMA 操 作 ， 紧 接着 ， 它 就 会 执行 pci_map_sg () 或 者 dma_map_sg () 来 进行 上 述 scatter/gather 列 表 的 DMA 映 射 了 ， 之 后 进行 硬件 的 访问 。 


13.7 实例: vmem_disk 驱 动 


13.7.1 vmem_disk 的 硬件 原理 


vmem_disk 是 一 种 模拟 磁盘 ， 其 数据 实际 上 存储 在 RAM 中 。 它 使 用 通过 vmalloc () 分 配 出 来 的 内 存 空 间 来 模拟 出 一 个 磁盘 ， 以 块 设备 的 方式 来 访问 这 片 内 存 。 该 驱动 是 对 字符 设备 驱动 章节 中 
globalmem 驱 动 的 块 方式 改造 。 


加 载 vmem_disk.ko 后 ， 在 使 用 默认 模块 参数 的 情况 下 ， 系 统 会 增加 4 个 块 设备 节点 : 


# ls -1 /dev/vmem_disk* 

1 root disk 252, 0 2H 25 14:00 /dev/vmem diska 
1 root disk 252, 16 2 月 25 14:00 /dev/vmem diskb 
1 root disk 252, 32 2 月 25 14:00 /dev/vmem_diskc 
brw-rw---- 1 root disk 252, 48 2 月 25 14:00 /dev/vmem_diskd 


回 


其 中 ，mkfs.ext2/dev/vmem_diska 命 令 的 执行 会 


馈 如 下 信息 : 


$ sudo mkfs.ext2 /dev/vmem diska 

mke2fs 1.42.9 (4-Feb-2014) 

Filesystem label= 

OS type: Linux 

Block size=1024 (log=0) 

Fragment size=1024 (log=0) 

Stride=0 blocks, Stripe width=0blocks 

64 inodes, 512 blocks 

25 blocks (4.88%) reserved for the super user 
First data block=1 

Maximum filesystem blocks=524288 

1 block group 

8192 blocks per group, 8192fragments per group 
64 inodes per group 

Allocating group tables: done 

Writing inode tables: done 

Writing superblocks and filesystem accounting information: done 


它 将 /dev/vmem_diska 格 式 化 为 EXT2 文 件 系 统 。 之 后 我 们 可 以 mount 这 个 分 区 


xl 
$ 
Ai 


中 进行 文件 读 写 。 


13.8 Linux MMC 子 系统 


Linux MMC/SD 存 储 卡 是 一 种 典型 的 块 设备 ， 它 的 实现 位 于 drivers/mmc。drivers/mmc 下 又 分 为 card、core 和 host 这 3 个 子 目录 。card 实 际 上 跟 Linux 的 块 设备 子 系 统 对 接 ， 实 现 块 设备 驱动 以 及 完成 
请 求 ， 但 是 具体 的 协议 经 过 core 层 的 接口 ， 最 终 通 过 host 完 成 传输 ， 因 此 整个 MMC 子 系统 的 框架 结构 如 图 13.5 所 示 。 另 外 ，card 目 录 除 了 实现 标准 的 MMC/SD 存 储 卡 以 外 ， 该 目录 还 包含 一 些 SDIO 外 设 
的 卡 驱动 ， 如 drivers/mmc/card/sdio_uart.c。core 目 录 除 了 给 card 提 供 接口 外 ， 实 际 上 也 定义 好 了 host 驱 动 的 框架 。 


义 件 系统 


MMC/SD card |E 
( 块 设备 ) 


MMC/SD core JE 
(通信 协议 ) 


MMC/SD host 


图 13.5 Linux MMC 子 系统 


drivers/mmc/card/queue.c 的 mmc _init queue () 函数 通过 blk_init queue (mmc_request_fn, lock) 绑 定 了 请 求 处 理 函 数 mmc_request fn () : 


int mmc_init_queue(struct mmc_queue *mq, struct mmc_card *card, 
spinlock_t *lock, const char *subname) 
{ 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
mq->queue = blk_init_queue(mmc_request_fn, lock); 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


Tommc_request_fn () 函数 会 唤醒 与 MMC 对 应 的 内 核 线程 来 处 理 请 求 ， 与 该 线程 对 应 的 处 理 函 数 mmc_queue thread () 执行 与 MMC 对 应 的 mq->issue fn (mq, req) : 


static int mmc queue thread (void *d) 
{ 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


do { 
req = blk fetch request (q) ; 
mq->mqrgq_cur->req = req; 
if (req || mq->mqrq_prev->req) { 
set_current_state (TASK_RUNNING) ; 
cmd flags = req req->cmd flags : 0; 
mq->issue_fn(mq, req); 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
return 0; 


对 于 存储 设备 而 言 ，mq->issue_ fn () 函数 指向 drivermmc/cardy/block.c 中 的 mmc_blk_issue rq () : 


static struct mmc blk data *mmc_blk_alloc_req(struct mmc_card *card, 
struct device *parent, 
sector_t size, 
bool default ro, 
const char *subname, 
int area_type) 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
md->queue.issue_fn = mmc blk issue rq; 

md->queue.data = md; DEn a 

http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


其 中 的 mmc_blk_issue_rw_rq () 等 函数 最 终 会 调 


drivers/mmc/core/core.c 中 的 mmc _start_req () 这 样 的 函数 : 


static int mmc blk issue rw rql(struct mmc queue *mq, struct request *rqc) 
{ 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
areq = mmc start req(card->host, areq, (int *) &status); 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


mmc _start_req () 反 过 来 又 调用 host 驱 动 的 host->ops->pre_req () . host->ops->enable () , host->ops->disable () ` host->ops->request () 等 成 员 函 数 ， 这 些 函 数 实 现 于 


drivers/mm/host 目 录 中 。 


host->ops 实 际 上 是 一 个 MMC host 操 作 的 集合 ， 对 应 的 结构 体 为 mmc_host_ops， 它 的 定义 如 代码 清单 13.16 所 示 。MMC 主 机 驱动 的 主体 工作 就 是 实现 该 结构 体 的 成 员 函 数 ， 如 


drivers/mmc/host/mmc spi.c.、 drivers/mmc/host/bfin_sdh.c、drivers/mmc/host/sdhci.c 等 。 


代码 清单 13.16 mmc_host_ops 结 构 体 


lstruct mmc host ops { 


2 yE 

3 * "enable' is called when the host is claimed and 'disable' is called 
4 * when the host is released. 'enable' and 'disable' are deprecated. 
5 ay 

6 int (*enable) (struct mmc host *host) ; 

F int (*disable) (struct mmc host *host) ; 

8 {3 

9 * It is optional for the host to implement pre_req and post_req in 
10 * order to support double buffering of requests (prepare one 

11 * request while another request is active). 

12 * pre req() must always be followed by a post _req(). 

13 * To undo a call made to pre req(), call post req() with 

14 * a nonzero err condition. ` a 

15 */ 


16 void (*post_req) (struct mmc_host *host, struct mmc_request *req, 


17 int err); 


18 void (*pre_req) (struct mmc_host *host, struct mmc_request *req, 

19 bool is first req); 

20 void (*request) (struct mmc_host *host, struct mmc_request *req); 
21 j> 

22 * Avoid calling these three functions too often or in a "fast path", 
23 * since underlaying controller might implement them in an expensive 
24 * and/or slow way. 

25 * 

26 * Also note that these functions might sleep, so don't call them 

27 * in the atomic contexts! 

28 * 

29 * Return values for the get_ro callback should be: 

30 * Ofor a read/write card 

31 * lfor a read-only card 

32 * -ENOSYS when not supported (equal to NULL callback) 

33 * or a negative errno value when something bad happened 

34 = 

35 * Return values for the get_cd callback should be: 

36 + Ofor a absent card 

37 * lfor a present card 

38 * -ENOSYS when not supported (equal to NULL callback) 

39 * or a negative errno value when something bad happened 

40 wg 

41 void (*set_ios) (struct mmc_host *host, struct mmc_ios *ios); 

42 int (*get_ro) (struct mmc_host *host); 

43 int (*get_cd) (struct mmc_host *host); 

44 

45 void (*enable_sdio_irg) (struct mmc_host *host, int enable); 

46 

47 /* optional callback for HC quirks */ 

48 void (*init_card) (struct mmc_host *host, struct mmc_card *card); 
49 

50 int (*start_signal_voltage_switch) (struct mmc_host *host, struct mmc_ios *ios); 
51 

52 /* Check if the card is pulling dat[0:3] low */ 

53 int (*card_busy) (struct mmc_host *host); 

54 

55 /* The tuning command opcode value is different for SD and eMMC cards */ 
56 int (*execute_tuning) (struct mmc_host *host, u32opcode) ; 

57 

58 /* Prepare HS400target operating frequency depending host driver */ 
59 int (*prepare_hs400_tuning) (struct mmc_host *host, struct mmc_ios *ios); 
60 int (*select_drive_strength) (unsigned int max_dtr, int host_drv, int card_drv); 
61 void (*hw_reset) (struct mmc_host *host); 

62 void (*card_event) (struct mmc_host *host); 

63}; 


FF BaIASASOCAHRAYMMC/SD/SDIO#I28E5DHCI (Secure Digital Host Controller Interface) ， 所 以 更 多 是 直接 


于 drivers/mmc/host/sdhci.c 定 义 的 drivers/mmc/host/sdhci-pltfm.c 框 架 。 


13.9 总 结 


drivers/mmc/host/sdhci.c 驱 动 ， 很 多 芯片 甚至 还 可 以 进一步 使 用 基 


块 设备 的 |/O 操 作 方 式 与 字符 设备 的 存在 较 大 的 不 同 ， 因 而 引入 了 request_queue、request、bio 等 一 系列 数据 结构 。 在 整个 块 设备 的 |/O 操 作 中 ， 贯 穿 始终 的 就 是 “请 求 ”， 字 符 设备 的 Il/O 操 作 则 是 


直接 进行 不 绕 弯 ， 块 设备 的 |/O 操 作 会 排队 和 整合 。 


驱动 的 任务 是 处 理 请 求 ， 对 请 求 的 排队 和 整合 由 MO 调度 算法 解决 ， 因 此 ， 块 设备 驱动 的 核心 就 是 请 求 处 理 函 数 或 “制造 请 求 ” 


尽管 在 块 设备 驱动 中 仍然 存在 block_device_operations 结 构 体 及 其 成 员 函 数 ， 但 不 再 包含 读 写 类 的 成 员 函 数 ， 而 只 是 包含 打开 、 释 放 及 I/O 控 制 等 与 具体 读 写 无 关 的 函数 。 


块 设备 驱动 的 结构 相对 复杂 ， 但 幸运 的 是 ， 块 设备 不 像 字符 设备 那样 包罗 万 象 ， 它 通常 就 是 存储 设备 ， 而 且 驱 动 的 主体 已 经 由 Linux 内 核 提 供 ， 针 对 一 个 特定 的 硬件 系统 ， 驱 动工 程 师 所 涉及 的 工作 往往 


只 是 编写 极其 少量 的 与 硬件 平台 相关 的 代码 。 


第 14 章 ”Linux 网 络 设备 驱动 


本 章 导读 


网 络 设 备 是 完成 用 户 数据 包 在 网 络 媒介 上 发 送 和 接收 的 设备 ， 它 将 上 层 协议 传递 下 来 的 数据 包 以 特定 的 媒介 访问 控制 方式 进行 发 送 ， 并 将 接收 到 的 数据 包 传递 给 上 层 协议 。 


与 字符 设备 和 块 设备 不 同 ， 网 络 设备 并 不 对 应 于 /dev 目 录 下 的 文件 ， 应 用 程序 最 终 使 用 套 接 字 完 成 与 网 络 设备 的 接口 。 因 而 在 网 络 设备 身上 并 不 能 体现 出 “一 切 都 是 文件 ”的 思想 。 


Linux 系 统 对 网 络 设备 驱动 定义 了 4 个 层次 ， 这 4 个 层次 为 网 络 协议 接口 层 、 网 络 设备 接口 层 、 提 供 实际 功能 的 设备 驱动 功能 层 和 网 络 设备 与 媒介 层 。 


14.1 节 讲解 Linux 网 络 设备 驱动 的 层次 结构 ， 描 述 


中 4 个 层次 各 自 的 作用 以 及 它们 是 如 何 协 同 合作 以 实现 向 下 驱动 网 络 设备 硬件 、 向 上 提供 数据 包 收 发 接口 能 力 的 。 


14.2~14.8 节 主要 讲解 设备 驱动 功能 层 的 各 主要 函数 和 数据 结构 ， 包 括 设备 注册 与 注销 、 设 备 初始 化 、 数 据 包 收发 函数 、 打 开 与 释放 函数 等 ， 在 分 析 的 基础 上 给 出 了 抽象 的 设计 模板 。 


14.9 节 介绍 DM9000 网 卡 的 设备 驱动 及 其 在 具体 开发 板 上 的 移植 。 


14.1 Linux 网络 设备 驱动 的 结构 


Linux 网 络 设备 驱动 程序 的 体系 结构 如 图 14.1 所 示 ， 从 上 到 下 可 以 划分 为 4 层 ， 依 次 为 网 络 协议 接口 层 、 网 络 设备 接口 层 、 提 供 实际 功能 的 设备 驱动 功能 


示 。 


层 以 及 网 络 设备 与 媒介 层 ， 这 4 层 的 作用 如 下 所 


1) 网 络 协议 接口 层 向 网 络 层 协议 提供 统一 的 数据 包 收 发 接口 ， 不 论 上 层 协议 是 ARP， 还 是 IP， 都 通过 dev_queue_xmit () 函数 发 送 数 据 ， 并 通过 netif_rx () 函数 接收 数据 。 这 一 层 的 存在 使 得 上 层 协 


议 独 立 于 具体 的 设备 。 


2) 网 络 设备 接口 层 向 协议 接口 层 提供 统一 的 用 于 描述 具体 网 络 设备 属性 和 操作 的 结构 体 net_device， 该 结构 体 是 设备 驱动 功能 


层 中 各 函数 的 容器 。 实 际 上 ， 网 络 设备 接口 


屋 从 宏观 上 规划 了 具体 操作 硬 


件 的 设备 驱动 功能 


3) 设备 驱动 功能 
触发 接收 操作 。 


层 的 各 函数 是 网 络 设备 接口 


4) 网 络 设备 与 媒介 
虚拟 的 。 


数据 包 发 送 


dev_queue_xmit () 


Ze KJ% net_device 


BTL BGS 


hard_start_xmit () 


网 络 物理 设备 


图 14.1 


在 设计 具体 的 网 络 设备 驱动 程序 时 ， 我 们 需要 完成 的 主要 工作 是 编写 设备 驱动 功能 


14.2 ”网 络 设备 驱动 的 注册 与 注销 


慨 net_device 数 据 结构 的 具体 成 员 ， 是 驱使 网 络 设备 硬件 完成 相应 动作 的 程序 ， 它 通过 hard start xmit () 函数 启动 发 送 操作 ， 


层 是 完成 数据 包 发 送 和 接收 的 物理 实体 ， 包 括 网 络 适配器 和 具体 的 传输 媒介 ， 网 络 适配器 被 设备 驱动 功能 


中 断 处 理 (数据 


并 通过 网 络 设备 上 的 中 断 


层 中 的 函数 在 物理 上 驱动 。 对 于 Linux 系 统 而 言 ， 网 络 设备 和 媒介 都 可 以 是 


数据 包 接 收 


netif_rx () 


网 络 协议 接口 层 


网 络 设备 接口 层 


名 接收 ) 设备 驱动 功能 层 


媒介 网 络 设备 与 媒介 层 


Linux 网 络 设备 驱动 程序 的 体系 结构 


层 的 相关 函数 以 填充 net_device 数 据 结构 的 内 容 并 将 net_device 注 册 入 内 核 。 


网 络 设备 驱动 的 注册 与 注销 由 register_netdev () 和 unregister_netdev () 函数 完成 ， 这 两 个 函数 的 原型 为 : 


int register_netdev (struct net_device *dev) ; 
void unregister_netdev(struct net_device *dev) ; 


这 两 个 函数 都 接收 一 个 net_device 结 构 体 指针 为 参数 ， 可 见 net_device 数 据 结构 在 | 


net_device 的 生成 和 成 员 的 赋值 并 不 一 定 要 由 工程 师 亲 自动 手 逐个 完成 ， 可 以 利 


网 络 设备 驱动 中 的 核心 地 位 。 


下 面 的 宏 帮助 我 们 填充 : 


#define alloc_netdev(sizeof_priv, name, setup) \ 
alloc_netdev_mqs (sizeof priv, name, setup, 1, 1) 
#define alloc_etherdev(sizeof_priv) alloc_etherdev_mgq(sizeof_priv, 1) 


#define alloc_etherdev_mq(sizeof_priv, count) alloc_etherdev_mgs(sizeof_priv, 


count, count) 


alloc_netdev 以 及 alloc_etherdev 宏 引 


的 alloc_netdev_mqs () 函数 的 原型 为 : 


struct net_device *alloc netdev mqs (int sizeof priv, const char *name, 
void (*setup) (struct net_device *), 
unsigned int txqs, unsigned int rxqs); 


alloc_netdev_mqs () 函数 生成 一 个 net_device 结 构 体 ， 对 其 成 员 赋值 并 返回 该 结构 体 的 指针 。 第 一 个 参数 为 设备 私有 成 员 的 大 小 ， 第 二 个 参数 为 设备 名 ， 第 三 个 参数 为 net_device 的 setup () 函数 


指针 ， 第 四 、 五 个 参数 为 要 分 配 的 发 送 和 接收 子 队列 的 数量 。setup () 


free_netdev () 完成 与 alloc_ enetdev () 和 alloc_etherdev () 函数 相反 的 功能 


函数 接收 的 参数 也 为 struct net_device 指 针 ， 用 


于 预 置 net_device 成 员 的 值 。 


， 即 释放 net_device 结 构 体 的 函数 : 


void free_netdev(struct net_device *dev); 


net_device 结 构 体 的 分 配 和 网 络 设备 驱动 的 注册 需 在 网 络 设备 驱动 程序 初始 化 时 进行 ， 而 net_device 结 构 体 的 释放 和 网 络 设备 驱动 的 注销 在 设备 或 驱动 被 移 除 的 时 候 执行 ， 如 代码 清单 14.4 所 示 。 
代码 清单 14.4 ”网 络 设备 驱动 程序 的 注册 和 注销 


lstatic int xxx register (void) 


2{ 
3 http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
4 /* 分 配 net_qevice 结 构 体 并 对 其 成 员 赋 值 */ 
5 xxx dev = “alloc_netdev (sizeof (struct xxx_priv), "snd", xxx_init); 
6 if (xxx dev == NULL) 
7 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... /* 分 配 net_device 失 败 */ 
8 
9 /* 注册 net _device 结 构 体 */ 
10 if ((result = register netdev (xxx_dev) ) ) 
11 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
12} 
13 
14static void xxx_unregister (void) 
15{ 


16 http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
17 /* 注销 net_device 结 构 体 */ 

18 unregister netdev (xxx dev); 

19 /* 释放 net device 结 构 体 */ 

20 free netdev (xxx dev); 

21} ~ ~ 


14.3 ”网 络 设备 的 初始 化 


网 络 设备 的 初始 化 主要 需要 完成 如 下 几 个 方面 的 工作 。 


“ 进行 硬件 上 的 准备 工作 ， 检 查 网 络 设备 是 否 存在 ， 如 果 存 在 ， 则 检测 设备 所 使 用 的 硬件 资 


“ 进行 软件 接口 上 的 准备 工作 ， 分 配 net_device 结 构 体 并 对 其 数据 和 函数 指针 成 员 赋 值 。 


“ 获得 设备 的 私有 信息 指针 并 初始 化 各 成 员 的 值 。 如 果 私有 信息 中 包括 自 旋 锁 或 信号 量 等 并 发 或 同步 机 制 ， 则 需 对 其 进行 初始 化 。 


对 net_device 结 构 体 成 员 及 私有 数据 的 赋值 都 可 能 需要 与 硬件 初始 化 工作 协同 进行 ， 即 硬件 检测 出 了 相应 的 资源 ， 需 要 根据 检测 结果 填充 net_device 结 构 体 成 员 和 私有 数据 。 


网 络 设备 驱动 的 初始 化 函数 模板 如 代码 清单 14.5 所 示 ， 具 体 的 设备 驱动 初始 化 函数 并 不 一 定 完全 和 本 模板 一 样 ， 但 其 本 质 过 程 是 一 致 的 。 


代码 清单 14.5 “网络 设备 驱动 的 初始 化 函数 模板 


lvoid xxx_init (struct net_device *dev) 


2{ 
3 /* 设备 的 私有 信息 结构 体 */ 
4 struct xxx priv *priv; 
5 
6 /* 检查 设备 是 否 存在 和 设备 所 使 用 的 硬件 资源 */ 
7 xxx hw init(); 
8 
9 /* 初始 化 以 太 网 设备 的 公用 成 员 */ 
10 ether_setup (dev); 
11 
12 /* 设置 设备 的 成 员 函 数 指针 */ 
13 ndev->netdev_ops = &x%xx_netdev_ops; 
14 ndev->ethtool_ops = &xxx_ethtool_ops; 
15 dev->watchdog_timeo = timeout; 
16 


17 /* 取得 私有 信息 ， 并 初始 化 它 */ 
18 priv = netdev_priv (dev) ; 
19 http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... /* 初始 化 设备 私有 数据 区 */ 


上 述 代码 第 7 行 的 xxx_hw init () 函数 完成 的 与 硬件 相关 的 初始 化 操作 如 下 。 
. 探测 xxx 网 络 设备 是 否 存在 。 探 测 的 方法 类 似 于 数学 上 的 “ 反 证 法 ”， 即 先 假设 存在 设备 xxx， 访 问 该 设备 ， 如 果 设 备 的 表现 与 预期 一 致 ， 就 确定 设备 存在 ; 否则 ， 假 设 错误 ， 设 备 xxx 不 存在 。 


: 探测 设备 的 具体 硬件 配置 。 一 些 设备 驱动 编写 得 非常 通用 ， 对 于 同类 的 设备 使 用 统一 的 驱动 ， 我 们 需要 在 初始 化 时 探测 设备 的 具体 型 号 。 另 外 ， 即 便 是 同一 设备 ， 在 硬件 上 的 配置 也 可 能 不 一 样 ， 我 
们 也 可 以 探测 设备 所 使 用 的 硬件 资源 。 


“ 申请 设备 所 需要 的 硬件 资源 ， 如 用 request_region() 函数 进行 1/O 〇 端口 的 申请 等 ,但 是 这 个 过 程 可 以 放 在 设备 的 打开 函数 xxx_open () 中 完成 。 


14.4 网 络 设备 的 打开 与 释放 


网 络 设备 的 打开 函数 需要 完成 如 下 工作 。 

“ 使 能 设备 使 用 的 硬件 资源 ， 申 请 I/O 区 域 、 中 断 和 DMA 通 道 等 。 

“ 调用 Linux 内 核 提 供 的 netif start_queue () 函数 ， 激 活 设备 发 送 队 列 。 
网 络 设备 的 关闭 函数 需要 完成 如 下 工作 。 

+ 调用 Linux 内 核 提 供 的 netif stop_queue () 函数 ， 停 止 设备 传输 包 。 

“ 释放 设备 所 使 用 的 I/O 区 域 、 中 断 和 DMA 资 源 。 


Linux 内 核 提 供 的 netif_start_queue () 和 netif_stop_queue () 两 个 函数 的 原型 为 : 


void netif_start_queue(struct net_device *dev); 
void netif_stop_queue (struct net_device *dev); 


根据 以 上 分 析 ， 可 得 出 如 代码 清单 14.6 所 示 的 网 络 设备 打开 和 释放 函数 的 模板 。 


代码 清单 14.6 “网络 设备 打开 和 释放 函数 模板 


lstatic int xxx_open(struct net_device *dev) 


3 /* 申请 端口 、IRQ 等 ， 类 似 于 fops->open */ 
ret = request_irq(dev->irg, &xxx_interrupt, 0, dev->name, dev); 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


http: //www.hzcourse.com/resource/readBook ?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


4 
5 
6 netif_start_queue (dev) ; 
7 
8 


10static int xxx_release(struct net_device *dev) 


11{ 


12 /* 释放 端口 、IRQ 等 ， 类 似 于 fops->close */ 

13 free irq(dev->irq, dev); 

14 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/0EBPS/Text/... 
15 netif stop queue (dev); /* can't transmit any more */ 

16 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/0EBPS/Text/... 


14.5 ”数据 发 送 流程 


从 14.1 节 网 络 设备 驱动 程序 的 结构 分 析 可 知 ，Linux 网 络 子 系统 在 发 送 数 


指针 需 被 初始 化 以 指向 设备 的 xxx_tx () 函数 。 


网 络 设备 驱动 完成 数据 包 发 送 的 流程 如 下 。 


1) 网 络 设备 驱动 程序 从 上 层 协议 传递 过 来 的 sk_buff 参 数 获得 数据 包 的 有 效 数 据 和 长 度 ， 将 有 效 数 据 放 入 临时 缓冲 区 。 


多 


2) 对 于 以 太 网 ， 如 果 有 效 数 据 的 长 度 小 于 以 太 网 冲突 检测 所 要 求 数据 帧 的 最 小 长 度 ETH_ZLEN ， 则 给 临时 缓冲 区 的 未 尾 填充 0。 


3) 设置 硬件 的 寄存 器 ， 驱 使 网 络 设备 进行 数据 发 送 操作 。 


完成 以 上 3 个 步骤 的 网 络 设备 驱动 程序 的 数据 包 发 送 函 数 模板 如 代码 清单 14.7 所 示 。 


代码 清单 14.7 ”网 络 设 备 驱动 程序 的 数据 包 发 送 函数 模板 


lint xxx tx(struct sk buff *skb, struct net_device *dev) 


2{ 


3 int len; 
4 char *data, shortpkt [ETH ZLEN]; 
5 if (xxx_send_available (http: //www.hzcourse. com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/...)) { /* 发 送 队列 未 满 ， 可 以 发 送 */ 
6 /* 获得 有 效 数 据 指针 和 长 度 */ 
7 data = skb->data; 

8 len = skb->len; 


9 i£ 


(len < ETH_ZLEN) { 


/* 如 果 帧 长 小 于 以 太 网 帧 最 小 长 度 ， 补 0 */ 
memset (shortpkt, 0, ETH ZLEN); 
memcpy (shortpkt, skb->data, skb->len); 
len = ETH _ZLEN; 

data = shortpkt; 


} 


17 dev->trans_start = jiffies; /* 记录 发 送 时 间 蕉 */ 


19 if 


(avail) 


{/* 设置 硬件 寄存 器 ， 让 硬件 把 数据 包 发 送出 去 */ 


xxx_hw_tx(data, len, dev); 


} else { 


netif_stop_queue (dev) ; 
http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


这 里 特别 要 强调 第 22 行 对 netif_stop_queue () 的 调用 ， 当 发 送 队列 为 满 或 因 其 他 原因 来 不 及 发 送 当前 上 层 传 下 来 的 数据 包 时 ， 则 调 
数据 包 被 发 送 完 成 后 ， 在 以 TX 结束 的 中 断 处 理 中 ， 应 该 调用 netif_ wake queue () 唤醒 被 阻塞 的 上 层 ， 以 启动 它 继续 向 网 络 设备 驱动 传送 数据 包 。 


Sai 


居 传 输 超 时 时 ， 意 味 着 当前 的 发 送 操作 失败 或 硬件 已 陷入 未 知 状态 ， 此 时 ， 数 据 包 发 送 超时 处 理 函 数 xxx tx timeout () 将 被 调 


D 


居 包 时 ， 会 调用 驱动 程序 提供 的 hard_start_transmit () 函数 ， 该 函数 用 于 启动 数据 包 的 发 送 。 在 设备 初始 化 的 时 候 ， 这 个 函数 


此 函数 阻止 上 层 继续 向 网 络 设备 驱动 传递 数据 包 。 当 忙于 发 送 的 


netif wake queue () 函数 以 重新 启动 设备 发 送 队 列 ， 如 代码 清单 14.8 所 示 。 


代码 清单 14.8 ”网 络 设备 驱动 程序 的 数据 包 发 送 超时 函数 模板 


。 这 个 函数 也 需要 调用 由 Linux 内 核 提供 的 


lvoid xxx tx timeout (struct net_device *dev) 


2{ 
3 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
4 netif wake queue (dev) ; /* 重新 启动 设备 发 送 队 列 */ 


从 前 文 可 知 ，netif wake queue () 和 netif_stop_queue () 是 数据 发 送 流程 中 要 调用 的 两 个 非常 重要 的 函数 ， 分 别 用 于 唤醒 和 阻止 上 层 向 下 传送 数据 包 ， 它 们 的 原型 定义 于 
include/linux/netdevice.h 中 ， 如 下 : 


static inline void netif wake queue (struct net_device *dev); 
static inline void netif stop queue (struct net device *dev); 


14.6 “数据 接收 流程 


网 络 设备 接收 数据 的 主要 方法 是 由 中 断 引 发 设备 的 中 断 处 理 函 数 ， 中 断 处 理 函 数 判断 中 断 类 型 ， 如 果 为 接收 中 断 ， 则 读 取 接 收 到 的 数 拉 


数据 缓冲 


区 ， 并 调 


netif_rx () 函数 将 sk_buffer 传 递 给 上 层 协议 。 代 码 清单 14.9 所 示 为 完成 这 个 过 程 的 函数 模板 。 


代码 清单 14.9 网络 设备 驱动 的 中 断 处 理 函 数 模板 


居 ， 分 配 sk_buffer 数 据 结构 和 数据 缓冲 区 ， 将 接收 到 的 数据 复制 到 


lstatic void xxx_interrupt (int irq, void *dev_id) 
2{ 


3 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
4 switch (status &ISQ EVENT MASK) { 

5 case ISQ RECEIVER EVENT: 

6 /* 获取 数据 包 */ 

7 

8 


xxx_rx (dev); 


break; 
9 /* 其 他 类 型 的 中 断 */ 
10 } 
11} 
12static void xxx_rx(struct xxx_device *dev) 
13{ 


14 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
15 length = get rev len (http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/...); 
16 /* PRAHREFA PE */ 

17 skb = dev alloc skb (length + 2); 

18 

19 skb_reserve(skb, 2); /* 对 齐 */ 

20 skb->dev = dev; 

21 

22 /* 读 取 硬 件 上 接收 到 的 数据 */ 

23 insw(ioaddr + RX FRAME PORT, skb put (skb, length), length >> 1); 

24 if (length &1) 

25 skb->data[length - 1] = inw(ioaddr + RX_FRAME PORT); 

26 

27 /* 获取 上 层 协议 类 型 */ 

28 skb->protocol = eth_type_trans(skb, dev); 

29 

30 /* 把 数据 包 交 给 上 层 */ 

31 netif_rx(skb); 

32 T 

33 /* FORMAT TR */ 

34 dev->last_rx = jiffies; 

35 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/0EBPS/Text/... 
36} 


从 上 述 代码 的 第 4~ 7 行 可 以 看 出 ， 当 设备 的 中 断 处 理 程序 判断 中 断 类 型 为 数据 包 接收 中 断 时 ， 它 调用 第 12~36 行 定义 的 xxx_rx () 函数 完成 更 深入 的 数据 包 接 收工 作 。xxx_rx () 函数 代码 中 的 第 15 行 从 
硬件 读 取 到 接收 数据 包 有 效 数据 的 长 度 ， 第 16~19 行 分 配 sk_buff 和 和 数据 缓冲 区 ， 第 22~25 行 读 取 硬件 上 接收 到 的 数据 并 放 入 数据 缓冲 区 ， 第 27~28 行 解析 接收 数据 包 上 层 协 议 的 类 型 ， 最 后 ,第 30~31 行 代 
码 将 数据 包 上 交 给 上 层 协议 。 


如 果 是 NAPI 兼 容 的 设备 驱动 ， 则 可 以 通过 poll 方 式 接收 数据 包 。 在 这 种 情况 下 ， 我 们 需要 为 该 设备 驱动 提供 作为 netif_napi_add () 参数 的 xxx_poll () 函数 ， 如 代码 清单 14.10 所 示 。 


代码 清单 14.10 ”网 络 设备 驱动 的 xxx_poll () 函数 模板 


lstatic int xxx poll (struct napi_struct *napi, int budget) 

2{ 

int npackets = 0; 

struct sk_buff *skb; 

struct xxx_priv *priv = container_of(napi, struct xxx_priv, napi); 
struct xxx_packet *pkt; 


while (npackets < budget && priv->rx queue) { 
/* 从 队列 中 取出 数据 包 */ 
pkt = xxx_dequeue_buf (dev) ; 


12 /* 接 下 来 的 处 理 和 中 断 触 发 的 数据 包 接收 一 致 / 

13 skb = dev_alloc_skb (pkt->datalen + 2); 

14 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
15 skb_reserve(skb, 2); a 

16 memcpy (skb_put (skb, pkt->datalen), pkt->data, pkt->datalen); 

17 skb->dev = dev; 

18 skb->protocol = eth type _trans (skb, dev); 

19 /* HMnetif_receive_skb, m#Xnet_rx, 将 数据 包 交 给 上 层 协 议 */ 

20 netif_receive_skb(skb) ; ~ 


n. 
COBIDAHAW 


21 
22 /* 更 改 统计 数据 */ 
23 priv->stats.rx packets++; 


24 priv->stats.rx bytes += pkt->datalen; 
25 xxx_release_buffer(pkt) ; 
26 npackets++; 


27 } 

28 if (npackets < budget) { 

29 napi_complete (napi); 

30 xxx_enable rx int (…); /* 再 次 启动 网 络 设备 的 接收 中 断 */ 
31 } 

32 return npackets; 

33} 


上 述 代码 中 的 budget 是 在 初始 化 阶段 分 配给 接口 的 weight 值 ，xxx_poll () 函数 每 次 只 能 接收 最 多 budget 个 数据 包 。 第 8 行 的 while () 循环 读 取 设备 的 接收 缓冲 区 ， 同 时 读 取 数据 包 并 提交 给 上 层 。 
这 个 过 程 和 中 断 触 发 的 数据 包 接收 过 程 一 致 ， 但 是 最 后 使 用 的 是 netif_receive_skb () 函数 而 不 是 netif_rx () 函数 将 数据 包 提交 给 上 层 。 这 里 体现 出 了 中 断 处 理 机 制 和 轮 询 机 制 之 间 的 差别 。 


当 一 个 轮 询 过 程 结 束 时 ， 第 29 行 代码 调用 napi complete () 宣布 这 一 消息 ， 而 第 30 行 代码 则 再 次 启动 网 络 设备 的 接收 中 断 。 


p 


BANAPI RAAR EIKLA poll () 方式 接收 数据 包 ， 但 是 仍然 需要 首次 数据 包 接收 中 断 来 触发 这 个 过 程 。 与 数据 包 的 中 断 接 收 方式 不 同 的 是 ， 以 轮 询 方式 接收 数据 包 时 ， 当 第 一 次 中 断 发 生 后 ， 
中 断 处 理 程序 要 禁止 设备 的 数据 包 接 收 中 断 并 调度 NAP1， 如 代码 清单 14.11 所 示 。 


代码 清单 14.11 ”网 络 设备 驱动 的 poll 中 断 处 理 


lstatic void xxx interrupt (int irq, void *dev_id) 
21 

3 switch (status &ISQ EVENT MASK) { 

4 case ISQ RECEIVER EVENT: ~ 

5 … /* 获取 数据 包 */ 

6 xxx disable rx _ int (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/0EBPS/Text/...); /* 禁止 接收 中 断 */ 
7 napi schedule (Epriv->napi); 

8 break; 

9 /* 其 他 类 型 的 中 断 */ 

10 
11} 


上 述 代码 第 7 行 的 napi schedule () 函数 被 轮 询 方式 驱动 的 中 断 程序 调用 ， 将 设备 的 poll 方 法 添加 到 网 络 层 的 poll 处 理 队列 中 ， 排 队 并 且 准 备 接收 数据 包 ， 最 终 触发 一 个 NET_RX_SOFTIRQ 软 中 断 ， 从 
而 通知 网 络 层 接收 数据 包 。 图 14.3 所 示 为 NAPI 驱 动 程序 各 部 分 的 调用 关系 。 


softnet_ data 


设备 硬件 中 断 


把 设备 挂 接 上 poll_list 
关闭 中 断 
napi_schedule() 调用 设备 
的 poll 方法 
数据 包 读 取 完 毕 | 读 取 数据 包 

司 动 中 断 iii 
把 设备 从 poll list 清除 


napi_complete() 


netif_rx_action() 


14.3 NAPI 驱 动 程序 各 部 分 的 调用 关系 


在 支持 NAPI 的 网 络 设备 驱动 中 ， 通 常 还 会 进行 如 下 与 NAPI 相 关 的 工作 。 


ao 


1) 在 私有 数据 结构 体 (如 xxx_priv) 中 增加 一 个 成 


struct napi_struct napi; 


在 代码 中 就 可 以 方便 地 使 用 container_of () 通过 NAPI 成 员 反 向 获得 对 应 的 xxx_priv 指 针 。 


2) 通常 会 在 设备 驱动 初始 化 时 调 


netif_napi_add(dev, napi, xxx poll, XXX NET NAPI WEIGHT); 


3) 通常 会 在 net_device 结 构 体 的 open () Fstop () 成 员 函 数 中 分 别 调用 napi_enable () 和 napi_disable () 。 


14.7 ”网 络 连接 状态 


网 络 适 配器 硬件 电路 可 以 检测 出 链 路 上 是 否 有 载波 ， 载 波 反 映 了 网 络 的 连接 是 否 正常 。 网 络 设备 驱动 可 以 通过 netif carrier on () 和 netif_carrier_off () 函数 改变 设备 的 连接 状态 ， 如 果 驱 动 检测 到 
连接 状态 发 生变 化 ， 也 应 该 以 netif carrier on () 和 netif carrier_off () 函数 显 式 地 通知 内 核 。 


除了 netif carrier on () #netif_carrier off () 函数 以 外 ， 另 一 个 函数 netif_carrier_ok () 可 用 于 向 调用 者 返回 链 路 上 的 载波 信号 是 否 存在 。 


这 几 个 函数 都 接收 一 个 net_device 设 备 结构 体 指针 作为 参数 ， 原 型 分 别 为 : 


void netif_carrier_on(struct net_device *dev); 
void netif_carrier off (struct net_device *dev); 
int netif_carrier_ok(struct net_device *dev) ; 


在 网 络 设备 驱动 程序 中 可 采取 一 定 的 手段 来 检测 和 报告 链 路 状态 ， 最 常见 的 方法 是 采用 中 断 ， 其 次 可 以 设置 一 个 定时 器 来 对 链 路 状态 进行 周期 性 的 检查 。 当 定时 器 到 期 之 后 ， 在 定时 器 处 理 函 数 中 读 取 
物理 设备 的 相关 寄存 器 以 获得 载波 状态 ， 从 而 更 新 设备 的 连接 状态 ， 如 代码 清单 14.12 所 示 。 


代码 清单 14.12 ”网 络 设备 驱动 用 定时 器 周期 性 检查 链 路 状态 


lstatic void xxx timer (unsigned long data) 
2{ 
3 struct net_device *dev = (struct net_device*) data; 


5 
6 if (!(dev->flags &IFF_UP)) 
7 goto set_timer; 

8 

9 /* 获得 物理 上 的 连接 状态 */ 

10 if (link = xxx chk link(dev)) { 

11 if (!(dev->flags &IFF_RUNNING)) { 


12 netif_carrier_on(dev) ; 

13 dev->flags |= IFF RUNNING; 

14 printk (KERN_DEBUG "%s: link up\n", dev->name) ; 
15 } 

16 } else { 

17 if (dev->flags &IFF RUNNING) { 

18 netif_carrier_off (dev) ; 

19 dev->flags &= ~IFF_RUNNING; 

20 printk (KERN_DEBUG "$s: link down\n", dev->name) ; 
21 } 

22 } 

23 


24 set timer: 

25 priv->timer.expires = jiffies + 1* Hz; 

26 priv->timer.data = (unsigned long)dev; 

27 priv->timer.function = &xxx_timer; /* timer handler */ 
28 add timer (&priv->timer); ` 


上 述 代码 第 10 行 调用 xxx_chk_link () 函数 来 读 取 网 络 适 配器 硬件 的 相关 寄存 器 ， 以 获得 链 路 连接 状态 ， 具 体 实现 由 硬件 决定 。 当 链 路 连接 上 时 ， 第 12 行 的 netif_carrier on () 函数 显 式 地 通知 内 核 链 


路 正常 ; 反之 ， 第 18 行 的 netif carrier_off () 同样 显 式 地 通知 内 核 链 路 失去 连接 。 


此 外 ， 从 上 述 源 代码 还 可 以 看 出 ， 定 时 器 处 理 函 数 会 不 停 地 利用 第 24~28 行 代码 启动 新 的 定时 器 以 实现 周期 性 检测 的 目的 。 那 么 最 初 启动 定时 器 的 地 方 在 哪里 呢 ? 很 显然 ， 它 最 适合 在 设备 的 打开 函数 


中 完成 ， 如 代码 清单 14.13 所 示 。 


代码 清单 14.13 ”在 网 络 设备 驱动 的 打开 函数 中 初始 化 定时 器 


lstatic int xxx_open(struct net_device *dev) 
2 
3 struct xxx priv *priv = netdev_priv (dev); 


5 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
6 priv->timer.expires = jiffies + 3* Hz; 
7 priv->timer.data = (unsigned long) dev; 
8 priv->timer.function = &xxx timer; /* 定时 器 处 理 函 数 */ 
9 add timer (&priv->timer); ` 
10 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/0EBPS/Text/... 


148 ”参数 设置 和 统计 数据 


网 络 设备 的 驱动 程序 还 提供 一 些 供 系 统 对 设备 的 参数 进行 设置 或 读 取 设备 相关 信息 的 方法 。 


当 用 户 调用 ioctl () 函数 ， 并 指定 SIOCSIFHWADDR 命 令 时 ， 意 味 着 要 设置 这 个 设备 的 MAC 地 址 。 设 置 网 络 设备 的 MAC 地 址 可 用 如 代码 清单 14.14 所 示 的 模板 。 


代码 清单 14.14 ”设置 网 络 设备 的 MAC 地 址 


lstatic int set_mac_address(struct net_device *dev, void *addr) 


2{ 

3 if (netif_running (dev) ) 

4 return -EBUSY; /* 设备 忙 */ 
5 

6 /* 设置 以 太 网 的 MAC 地 址 */ 

7 xxx_set_mac(dev, addr); 

8 

9 return 0; 

10} 


上 述 程序 首先 用 netif_ running () 宏 判 断 设备 是 否 正在 运行 ， 如 果 是 ， 则 意味 着 设备 忙 ， 此 时 不 允许 设置 MAC 地 址 ; 否则 ， 调 用 xxx_set_mac () 函数 在 网 络 适配器 硬件 内 写 入 新 的 MAC 地 址 。 这 要 


求 设备 在 硬件 上 支持 MAC 地 址 的 修改 ， 而 实际 上 ， 许 多 设备 并 不 提供 修改 MAC 地 址 的 接口 。 


netif running () 宏 的 定义 为 : 


static inline bool netif _ running (const struct net_device *dev) 
{ 

return test_bit (__LINK_ STATE START, &dev->state) ; 
} 


当 用 户 调用 ioctl () 函数 时 ， 若 命令 为 IOCSIFMAP (如 在 控制 台中 运行 网 络 配 置 命令 ifconfig 就 会 引发 这 一 调用 ) ， 系 统 会 调用 驱动 程序 的 set_config 


O 函数 。 


系统 会 向 set_ config () 函数 传递 一 个 fmap 结 构 体 ， 该 结构 体 主要 包含 用 户 欲 设置 的 设备 要 使 用 的 MO 地 址 、 中 断 等 信息 。 注 意 ， 并 不 是 ifmap 结 构 体 中 给 出 的 所 有 修改 都 是 可 以 接受 的 。 实 际 上 ， 大 


多 数 设备 并 不 适合 包含 set_config () 函数 。set_config () 函数 的 例子 如 代码 清单 14.15 所 示 。 


代码 清单 14.15 ”网 络 设备 驱动 的 set_config 函 数 模板 


lstatic int xxx_config(struct net_device *dev, struct ifmap *map) 
2{ 

3 if (netif_running (dev) ) /* 不 能 设置 一 个 正在 运行 状态 的 设备 */ 

4 return - EBUSY; 


if (map->base addr != dev->base addr) { 
printk (KERN WARNING "xxx: Can't change I/O address\n") ; 
9 return - EOPNOTSUPP; 


5 
6 /* 假设 不 允许 改变 1/0 地 址 */ 
E 
8 


10 } 

i 

12 /* 假设 允许 改变 IR */ 

13 if (map->irq != dev->irq) 
14 dev->irq = map->irg; 

15 

16 return 0; 

17} 


上 述 代码 中 的 set_config () 函数 接受 IRQ 的 修改 ， 拒 绝 设备 MO 地 址 的 修改 。 具 体 的 设备 是 否 接受 这 些 信息 的 修改 ， 要 视 硬 件 的 设计 而 定 。 


如 果 用 户 调用 ioctl () 时 ， 命 令 类 型 在 SIOCDEVPRIVATE 和 SIOCDEVPRIVATE+15 之 间 ， 系 统 会 调用 驱动 程序 的 do ioctl () 函数 ， 以 进行 设备 专用 数 


驱动 程序 还 应 提供 get_stats () 函数 以 向 用 户 反馈 设备 状态 和 统计 信息 ， 该 函数 返回 的 是 一 个 net_device_stats 结 构 体 ， 如 代码 清单 14.16 所 示 。 


代码 清单 14.16 ”网 络 设备 驱动 的 get_stats () 函数 模板 


lstruct net device stats *xxx_stats(struct net_device *dev) 
2{ 

Base 
4 return &dev->stats; 


5} 


居 的 设置 。 这 个 设置 在 大 多 数 情 况 下 也 并 不 需 


有 的 网 卡 硬件 比较 强大 ， 可 以 从 硬件 的 寄存 器 中 读 出 一 些 统计 信息 ， 如 rx_missed_errors、tx_aborted_errors、rx_dropped、rx_length_errors 等 。 这 个 时 候 ， 我 们 应 该 从 硬件 寄存 器 读 取 统计 信息 ， 


填充 到 net_device 的 stats 字 段 中 ， 并 返回 。 具 体例 子 可 见 drivers/net/ethernet/adaptec/starfire.c 中 的 get_stats () 函数 。 


net_device_stats 结 构 体 定义 在 内 核 的 include/linux/netdevice.h 文 件 中 ， 它 包含 了 比较 完整 的 统计 信息 ， 如 代码 清单 14.17 所 示 。 


代码 清单 14.17 net_device _stats 结 构 体 


lstruct net device stats 


2{ 

3 unsigned long rx packets; /* 收 到 的 数据 包 数 */ 

4 unsigned long tx_packets; /* 发 送 的 数据 包 数 */ 

5 unsigned long rx bytes; /* 收 到 的 字 节 数 */ 

6 unsigned long tx_bytes; /* 发 送 的 字 节 数 */ 

7 unsigned long rx errors; /* 收 到 的 错误 数据 包 数 */ 

8 unsigned long tx errors; /* 发 生发 送 错误 的 数据 包 数 */ 

9 http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
10}; 


上 述 代码 清单 只 是 列 出 了 net_device_stats 包 含 的 主 项 目 统计 信息 ， 实 际 上 ， 这 些 项 目 还 可 以 进一步 细 分 ，net_device_stats 中 的 其 他 信息 给 出 了 更 详细 的 子 项 目 统计 ， 详 见 Linux 源 代码 。 


net_device_stats 结 构 体 已 经 内 嵌 在 与 网 络 设备 对 应 的 net_device 结 构 体 中 ， 而 其 中 统计 信息 的 修改 则 应 该 在 设备 驱动 的 与 发 送 和 接收 相关 的 具体 函数 中 完成 ， 这 些 函 数 包括 中 断 处 理 程序 、 数 据 包 发 送 
函数 、 数 据 包 发 送 超时 函数 和 数据 包 接收 相关 函数 等 。 我 们 应 该 在 这 些 函 数 中 添加 相应 的 代码 ， 如 代码 清单 14.18 所 示 。 


代码 清单 14.18 net_device_stats 结 构 体 中 统计 信息 的 维护 


1/* 发 送 超时 函数 */ 


2void xxx_tx_timeout (struct net_device *dev) 


3{ 
4 http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


5 dev->stats.tx_errors++; /* 发 送 错误 包 数 加 1 */ 
6 http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
7} 


8 

9/* 中 断 处 理 函 数 */ 

10static void xxx_interrupt (int irq, void *dev_id) 

11{ 

12 struct net_device *dev = dev_id; 

13 switch (status &ISQ FVENT MASK) { 

14 http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
15 case ISQ TRANSMITTER EVENT: / T 


16 dev->stats.tx packets++; /* 数据 包 发 送 成 功 ，tx Packets 信 息 加 1 */ 
17 netif wake queue (dev) ; /* 通知 上 层 协议 */ 

18 if ((Status &(TX OK | TX LOST CRS | TX SQE ERROR | 

19 TX_LATE COL | TX 16 COL)) != TX_OK) { /* 读 取 硬件 上 的 出 错 标志 */ 
20 7* 根据 错误 的 不 同情 况 ， 对 net_device_stats 的 不 同 成 员 加 1 */ 
21 if ((status &TX OK) == 0) 

22 dev->stats.tx_errors+t+; 

23 if (status &TX LOST CRS) 

24 dev->stats.tx carrier errorst++; 

25 if (status &TX_SQE_ ERROR) 

26 dev->stats.tx_heartbeat_errors++; 

27 if (status &TX_LATE_COL) ~ 

28 dev->stats.tx_window_errors++; 

29 if (status &TX 16 COL)” 

30 dev->stats.tx_aborted_errorst++; 

31 } 

32 break; 

33 case ISQ RX MISS EVENT: 

34 dev->stats.rx missed errors += (status >> 6); 

35 break; 

36 case ISQ_TX COL EVENT: 

37 dev->stats.collisions += (status >> 6); 

38 break; 

39} 

40} 


上 述 代码 的 第 6 行 意味 着 在 发 送 数据 包 超时 时 ， 将 发 生发 送 错误 的 数据 包 数 加 1。 而 第 13~38 行 则 意味 着 当 网 络 设备 中 断 产生 时 ， 中 断 处 理 程序 读 取 硬 件 的 相关 信息 以 决定 修改 net_device_stats 统 计 信 
息 中 的 哪些 项 目 和 子 项 目 ， 并 将 相应 的 项 目 加 1。 


14.9 ”DM9000 网 卡 设备 驱动 实例 


14.9.1 DM9000 网 卡 硬件 描述 


DM9000 是 开发 板 采用 的 网 络 芯 片 ， 是 一 个 高 度 集 成 且 功 耗 很 低 的 高 速 网 络 控制 器 ， 可 以 和 CPU 直 连 ， 支 持 10/100MB 以 太 网 连接 ， 芯 片 内 部 自 带 4KB 双 字 节 的 SRAM (3KB 用 来 发 送 ，13KB 用 来 接 
收 ) 。 针 对 不 同 的 处 理 器 ， 接 口 支持 8 位 、16 位 和 32 位 。DM9000 一 般 直接 挂 在 外 面 的 内 存 总 线 上 。 


1410 “总结 


对 Linux 网 络 设备 驱动 体系 结构 的 层次 化 设计 实现 了 对 上 层 协 议 接口 的 统一 和 硬件 驱动 对 下 层 多 样 化 硬件 设备 的 可 适应 。 程 序 员 需要 完成 的 工作 集中 在 设备 驱动 功能 层 ， 网 络 设备 接口 层 net_device 结 构 
体 的 存在 将 干 变 万 化 的 网 络 设备 进行 抽象 ， 使 得 设备 功能 层 中 除数 据 包 接收 以 外 的 主体 工作 都 由 填充 net_device 的 属性 和 函数 指针 完成 。 


在 分 析 net_device 数 据 结构 的 基础 上 ， 本 章 给 出 了 设备 驱动 功能 层 设 备 初始 化 、 数 据 包 收发 、 打 开 和 释放 等 函数 的 设计 模板 ， 这 些 模板 对 实际 设备 驱动 的 开发 具有 直接 指导 意义 。 有 了 这 些 模板 ， 我 们 
在 设计 具体 设备 的 驱动 时 ， 不 再 需要 关心 程序 的 体系 ， 而 可 以 将 精力 集中 于 硬件 操作 本 身 。 


在 Linux 网 络 子 系统 和 设备 驱动 中 ， 套 接 字 缓冲 区 sk_buff 发 挥 着 巨大 的 作用 ， 它 是 所 有 数据 流动 的 载体 。 网 络 设备 驱动 和 上 层 协议 之 间 也 基于 此 结构 进行 数据 包 交 互 ， 因 此 ， 我 们 要 特别 牢记 它 的 操作 
方法 。 


第 15 章 ”Linux 12C 核 心 、 总 线 与 设备 驱动 


本 章 导 读 


12C 总 线 仅仅 使 用 SCL、SDA 这 两 根 信号 线 就 实现 了 设备 之 间 的 数据 交互 ， 极 大 地 简化 了 对 硬件 资源 和 PCB 板 布线 空间 的 占用 。 


CPU 的 接口 中 。 


Linux 系 统 定义 了 12C 驱 动 体系 结构 。 在 Linux 系 统 中 ，12C 驱 动 由 3 部 分 组 成 ， 即 |2C 核 心 、12C 总 线 驱动 和 12C 设 备 驱动 。 这 3 部 分 相互 协作 ， 形 成 了 非常 通用 、 


15.1 节 对 Linux 的 12C 体 系 结构 进行 分 析 ， 讲 解 3 个 组 成 部 分 各 自 的 功能 及 相互 联系 。 


15.2 节 对 Linux 的 12C 核 心 进行 分 析 ， 讲 解 ij2c-core.c 文 件 的 功能 和 主要 函数 的 实现 。 


15.3 节 、15.4 节 分 别 详细 介绍 |2C 适 配器 驱动 和 12C 设 备 驱动 的 编写 方法 ， 给 出 可 供 参 考 的 设计 模板 。 


此 ，12C 总 线 非常 广泛 地 应 


DH 


在 EEPROM、 实 时 钟 、 小 型 LCD 等 设备 与 


可 适应 性 很 强 的 IC 框架 。 


15.5 节 、15.6 节 以 15.3 节 和 15.4 节 给 出 的 设计 模板 为 基础 ， 讲 解 Tegra ARM 处 理 器 的 |?C 总 线 驱动 ， 以 挂 接 在 |2C 总 线 上 的 AT24XX 系 列 EEPROM 为 例 讲 解 1C 设 备 驱动 。 


15.1 Linux 12C 体 系 结构 


Linux 的 12C 体 系 结构 分 为 3 个 组 成 部 分 。 
(1) 12C 核 心 
12C 核 心 提供 了 12C 总 线 驱 动 和 设备 驱动 的 注册 、 注 销 方 法 ，12C 通 信 方 法 ( 即 Algorithm) 上 


(2) 12C 总 线 驱动 


HS 


体 适 配器 无 关 的 代码 以 及 探测 设备 、 检 测 设备 地 址 的 上 


屋 代 码 等 ， 如 图 15.1 所 示 。 


12C 总 线 驱动 是 对 IC 硬件 体系 结构 中 适配器 端的 实现 ， 适 配器 可 由 CPU 控制 ， 甚 至 可 以 直接 集成 在 CPU 内 部 。 


12C 总 线 驱动 主要 包含 |2C 适 配器 数据 结构 i2c_adapter、|12C 适 配器 的 Algorithm 数 据 结构 i2c_algorithm 和 控制 |*C 适 配器 产生 通信 信号 的 函数 。 


CC 适配器 


FFF ETE AC a he F 
相关 的 代码 


图 15.1 Linux 的 IC 体系 结构 


经 由 IC 总 线 驱 动 的 代码 ， 我 们 可 以 控制 |*C 适 配器 以 主 控 方式 产生 开始 位 、 停 止 位 、 读 写 周期 ， 以 及 以 从 设备 方式 被 读 写 、 产 生 ACK 等 。 


(3) 12C 设 备 驱动 


12C 设 备 驱动 〈 也 称 为 客户 驱动 ) 是 对 IC 硬件 体系 结构 中 设备 端的 实现 ， 设 备 一 般 挂 接 在 受 CPU 控制 的 |2C 适 配器 上 ， 通 过 |2C 适 配器 与 CPU 交换 数据 。 


12C 设 备 驱动 主要 包含 数据 结构 i2c_driver 和 i2c_client， 我 们 需要 根据 具体 设备 实现 其 中 的 成 员 函 数 。 


在 Linux 2.6 内 核 中 ， 所 有 的 12C 设 备 都 在 sysfs 文 件 系统 中 显示 ， 存 于 /sys/bus/i2c/ 目 录 下 ， 以 适配器 地 址 和 芯片 地 址 的 形式 列 出 ， 例 如 : 


$ tree /sys/bus/i2c/ 
/sys/bus/i2c/ 
|-- devices 


| |-- i2c0 -> http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/../http: //www.hzcourse.com/resource/readBook?path=/openr 
| '-- i2cl -> http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/../http: //www.hzcourse.com/resource/readBook?path=/openr 


-- drivers 
'-- dummy 


在 Linux 内 核 源 代码 中 的 drivers 目 录 下 有 一 个 i2c 目 录 ， 而 在 i2c 目 录 下 又 包含 如 下 文件 和 文件 夹 。 


(1) i2c-core.c 


这 个 文件 实现 了 I?C 核 心 的 功能 以 及 /proc/bus/i2c* 接 口 。 


(2) i2c-dev.c 


实现 了 I?C 适 配器 设备 文件 的 功能 ， 每 一 个 |2C 适 配器 都 被 分 配 一 个 设备 。 通 过 适配器 访问 设备 时 的 主 设备 号 都 为 89， 次 设备 号 为 0~255。 应 用 程序 通过 “i2c-%d” 


件 名 并 使 用 文件 操作 接口 open () 、write () 、read () 、ioctl () 和 close () 等 来 访问 这 个 设备 。 


i2c-dev.c 并 不 是 针对 特定 的 设备 而 设计 的 ， 只 是 提供 了 通用 的 read () 、write () 和 ioctl () 等 接口 


El 


县 可 以 借用 这 些 接口 访问 挂 接 在 适配器 上 的 12C 设 备 的 存储 空间 或 寄存 器 ， 并 控制 |2C 设 备 


的 工作 方式 。 


(3) busses 文 件 夹 


这 个 文件 包含 了 一 些 12C 主 机 控制 器 的 驱动 ， 如 i2c-tegra.c、i2c-omap.c、i2c-versatile.c、i2c-s3c2410.c 等 。 


(4) algos 文 件 夹 
实现 了 一 些 |2C 总 线 适配器 的 通信 方法 。 


此 外 ， 内 核 中 的 i2c.h 头 文件 对 i2c_adapter、i2c_algorithm、i2c_driver 和 i2c_client 这 4 个 数据 结构 进行 了 定义 。 理 解 这 4 个 结构 体 的 作用 十 分 了 


单 15.1、15.2、15.3、15.4 分 别 对 它们 进行 了 描述 。 


代码 清单 15.1 ”i2c_adapter 结 构 体 


q 


要 ， 它 们 的 定义 位 于 include/linux/i2c.h 文 件 中 ， 代 码 清 


lstruct i2c adapter { 


2 struct module *owner; 

3 unsigned int class; /* classes to allow probing for */ 
4 const struct i2c algorithm *algo; /* the algorithm to access the bus */ 
5 void *algo_data; 

6 

7 /* data fields that are valid for all devices */ 

8 struct rt_mutex bus_lock; 

9 

10 int timeout; /* in jiffies */ 

11 int retries; 

12 struct device dev; /* the adapter device */ 
13 

14 int nr; 

15 char name [48]; 

16 struct completion dev_released; 

17 

18 struct mutex userspace_clients_lock; 

19 struct list_head userspace_clients; 

20 

21 struct i2c bus recovery info *bus_recovery_info; 

22}; 


代码 清单 15.2 ”i2c_algorithm 结 构 体 


lstruct i2c algorithm { 


2 /* If an adapter algorithm can't do I2C-level access, set master xfer 
3 to NULL. If an adapter algorithm can do SMBus access, set iz 
4 smbus_xfer. If set to NULL, the SMBus protocol is simulated 

5 using common I2C messages */ 

6 /* master_xfer should return the number of messages successfully 
7 processed, or a negative value on error */ 

8 int (*master_xfer) (struct i2c_adapter *adap, struct i2c_msg *msgs, 
9 int num); 

10 int (*smbus_xfer) (struct i2c_adapter *adap, ul6 addr, 

TR unsigned short flags, char read write, 

12 u8 command, int size, union i2c_smbus_data *data); 
13 

14 /* To determine what the adapter supports */ 

15 u32 (*functionality) (struct i2c_adapter *); 

16}; 


上 述 第 8 行 代码 对 应 为 |*C 传 输 函 数 指针 ，12C 主 机 驱动 的 大 部 分 工作 也 聚集 在 这 里 。 上 述 第 10 行 代码 对 应 为 SM Bus 传 输 函 数 指针 ，SMBus 不 需要 增加 额外 引 脚 ， 与 |*C 总 线 相 比 ， 在 访问 时 序 上 也 有 一 


定 的 差异 。 


代码 清单 15.3 i2c_driver 结 构 体 


lstruct i2c driver { 


2 unsigned int class; 

3 

4 /* Notifies the driver that a new bus has appeared. You should avoid 
5 * using this, it will be removed in a near future. 

6 wi 

T int (*attach_adapter) (struct i2c_adapter *) __deprecated; 

8 

9 /* Standard driver model interfaces */ 

10 int (*probe) (struct i2c_client *, const struct i2c_device_id *); 

11 int (*remove) (struct i2c_client *); 


(i2c-0, i2c-1, ..., i2c-10, ... 


12 


13 /* driver model interfaces that don't relate to enumeration */ 

14 void (*shutdown) (struct i2c_client *); 

15: int (*suspend) (struct i2c_client *, pm_message_t mesg); 

16 int (*resume) (struct i2c_client *); 

NT, 

18 /* Alert callback, for example for the SMBus alert protocol. 

19 * The format and meaning of the data value depends on the protocol. 
20 * For the SMBus alert protocol, there is a single bit of data passed 
21 * as the alert response's low bit ("event flag"). 

22 ue 

23 void (*alert) (struct i2c_client *, unsigned int data); 

24 

25 /* a ioctl like command that can be used to perform specific functions 
26 * with the device. 

27 + 

28 int (*command) (struct i2c_client *client, unsigned int cmd, void *arg); 
29 

30 struct device_driver driver; 

31 const struct i2c_device_id *id_table; 

32 

33 /* Device detection callback for automatic device creation */ 

34 int (*detect) (struct i2c_client *, struct i2c_board_info *); 

35 const unsigned short *address_list; 

36 struct list_head clients; 

37}; 


代码 清单 15.4 i2c_client 结 构 体 


Istruct i2c client { 


2 unsigned short flags; /* div., see below +y 
3 unsigned short addr; /* chip address - NOTE: 7bit KA 
4 /* addresses are stored in the */ 
5 /* LOWER_ 7 bits gi 

6 char name[I2C NAME SIZE]; 

7 struct i2c adapter *adapter; /* the adapter we sit on xf 
8 struct device dev; /* the device structure xf 
9 int irq; /* irq issued by device xf 
10 struct list_head detected; 


11}; 


什么 也 做 不 了 ， 因 此 i2c_adapter 中 包含 所 使 用 的 i2c algorithm 的 指针 。 


下 面 分 析 i2c_adapter、i2c algorithm、i2c_driver 和 i2c_client 这 4 个 数据 结构 的 作用 及 其 盘根错节 的 关系 。 


(1) i2c_adapterSi2c_ algorithm 


i2c_adapter 对 应 于 物理 上 的 一 个 适配器 ， 而 i2c_algorithm 对 应 一 套 通信 方法 。 一 个 |2C 适 配器 需要 i2c_algorithm 提 供 的 通信 


数 来 控制 适配器 产生 特定 的 访问 周期 。 缺 少 i2c_algorithm 的 i2c_adapter 


i2c_algorithm 中 的 关键 函数 master_xfer () 用 于 产生 I?C 访 问 周期 需要 的 信和 号， 以 i2c_msg (MGHS) 为 单位 。i2c_msg 结 构 体 也 是 非常 重要 的 ， 它 定义 于 include/uapi/linux/i2c.h (在 uapi 目 录 


下 ， 证 明 用 户 空间 的 应 用 也 可 能 使 用 这 个 结构 体 ) 中 ， 代 码 清单 15.5 给 出 了 它 的 定义 ， 其 中 的 成 员 表 明了 12C 的 传输 地 址 、 方 向 、 缓 冲 区 、 缓 冲 区 长 度 等 信息 。 

代码 清单 15.5 i2c_msg 结 构 体 

lstruct i2c_msg { 

2 _ ul6 addr; /* slave address iy; 

3 _ ul16 flags; 

4#define I2C M TEN 0x0010 /* this is a ten bit chip address */ 

S#define I2C_M RD 0x0001 /* read data, from slave to master */ 

6#define I2C M STOP 0x8000 /* if I2C FUNC PROTOCOL MANGLING */ 

T#define I2C M NOSTART 0x4000 /* if I2C_FUNC_NOSTART */ 

8#define I2C M REV DIR ADDR 0x2000 /* if 12C FUNC PROTOCOL MANGLING */ 

9#define I2C M IGNORE NAK 0x1000 /* if 12C FUNC PROTOCOL MANGLING */ 

10#define I2C M NO RD ACK 0x0800 /* if I2C FUNC PROTOCOL MANGLING */ 

1l#define I2C M RECV_LEN 0x0400 /* length will be first received byte */ 

12 _ ul16 len; /* msg length s 

13 __u8 *buf; /* pointer to msg data eh 

14}; 

(2) i2c_driverSi2c_client 

i2c_ driver 对 应 于 一 套 驱动 方法 ， 其 主要 成 员 函 数 是 probe () . remove () . suspend () , resume () &, 9h, struct i2c device id 形式 的 id table 是 该 驱动 所 支持 的 12C 设 备 的 ID 表 。 
i2c_client 对 应 于 真实 的 物理 设备 ， 每 个 |2C 设 备 都 需要 一 个 i2c_client 来 描述 。i2c_driver 与 i2c_client 的 关系 是 一 对 多 ， 一 个 i2c_driver 可 以 支持 多 个 同类 型 的 i2c_client，。 


i2c_client 的 信息 通常 在 BSP 的 板 文件 中 通过 i2c_board_info 填 充 ， 如 下 面 的 代码 就 定义 了 一 个 |2C 设 备 的 ID 为 “ad7142 joystick”、 地 址 为 0x2C、 中 断 号 为 IRQ_PF5 的 i2c client: 


static struct i2c board info __initdata xxx i2c board info[] = { 
#if defined (CONfiG JOYSTICK AD7142) || defined (CONfiG JOYSTICK AD7142 MODULE) 
{ 
I2C BOARD INFO("ad7142 joystick", 0x2C), 
irg = IRQ_PFS, 


, 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


} 


附 ， 


在 12C 总 线 驱动 i2c_bus type 的 match O 函数 ij2c_device match () 中 ,会 调用 i2c_match_id () 函数 匹配 在 板 文件 中 定义 的 ID 和 i2c_driver 所 支持 的 ID 表 。 


(3) i2c_ adpater 与 i2c_client 


i2c_adpater 与 i2c_client 的 关系 与 12C 硬 件 体 系 中 适配器 和 设备 的 关系 一 致 ， 即 i2c_client 依 附 于 i2c_adpater。 由 于 一 个 适配器 可 以 连接 多 个 12C 设 备 ， 所 以 一 个 i2c_adpater 也 可 以 被 多 个 i2c_client 依 
i2c_adpater 中 包括 依附 于 它 的 i2c_client 的 链表 。 


假设 12C 总 线 适配器 xxx 上 有 两 个 使 用 相同 驱动 程序 的 yyy IC 设备 ， 在 打开 该 |2C 总 线 的 设备 节点 后 ， 相 关 数 据 结构 之 间 的 逻辑 组 织 关 系 将 如 图 15.2 所 示 。 
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图 15.2 IC 驱动 的 各 种 数据 结构 的 关系 


从 上 面 的 分 析 可 知 ， 虽 然 |2C 硬 件 体系 结构 比较 简单 ， 但 是 12C 体 系 结构 在 Linux 中 的 实现 却 相当 复杂 。 当 工程 师 拿 到 实际 的 电路 板 时 ， 面 对 复杂 的 Linux |2C 子 系统 ， 应 该 如 何 下 手写 驱动 呢 ? 究竟 有 哪 


些 是 需要 亲自 做 的 ， 哪 些 是 内 核 已 经 提供 的 呢 ? 理 清 这 个 问题 非常 有 意义 ， 可 以 使 我 们 在 面 对 具 体 问题 时 迅速 抓 住 重 点 。 


一 方面 ， 适 配器 驱动 可 能 是 Linux 内 核 本 身 还 不 包含 的 ; 另 一 方面 ， 挂 接 在 适配器 上 的 具体 设备 驱动 可 能 也 是 Linux 内 核 还 不 包含 的 。 


: 提供 PC 适 配器 的 硬件 驱动 ， 探 测 、 


因此 ， 工 程 师 要 实现 的 主要 工作 如 下 。 


初始 化 EC 适配器 (如 申请 [2C 的 I/O 地 址 和 中 断 号 ) 、 驱 动 CPU 控 制 的 IC 适配器 从 硬件 上 产生 各 种 信号 以 及 处 理 C 中 断 等 。 


+ 提供 LEC 适 配器 的 Algotithm， 用 具体 适配器 的 xxx_xfer () 函数 填充 i2c_algotithm 的 master xfer 指 针 ， 并 把 i2c_algotrithm 指 针 赋值 给 i2c_adapter 的 algo 指 针 。 


“ 实现 PC 设备 驱动 中 的 i2c_driver 接 口 ， 用 具体 设备 yyy 的 yyy_probe () . yyy_temove () 、yyy_suspend () 


suspend、resume 和 id_table 指 针 。 


、yyy_resume () 函数 指针 和 i2c_device_id 设 备 ID 表 赋值 给 i2c_driver 的 probe、temove、 


“ 实现 LRC 设备 所 对 应 类 型 的 具体 驱动 ，i2c_driver 只 是 实现 设备 与 总 线 的 挂 接 ， 而 挂 接 在 总 线 上 的 设备 则 千差万别 。 例 如 ， 如 果 是 字符 设备 ， 就 实现 文件 操作 接口 ， 即 实现 具体 设备 yyy 的 YYy_read () 、 


yyy_write () 和 yyy_iocd () 函数 等 ; 如 果 是 声卡 ， 就 实现 ALSA 驱 动 。 


上 述 工作 中 前 两 个 属于 12C 总 线 驱动 ， 后 两 个 属于 12C 设 备 驱动 。15.3~ 15.4 节 将 详细 分 析 这 些 工作 的 实施 方法 ， 给 出 设计 模板 ， 而 15.5~ 15.6 节 将 给 出 两 个 


15.2 Linux 12C 核 心 


12C 核 心 (drivers/i2c/i2c-core.c) 中 提供 了 一 组 不 依赖 于 硬件 平台 的 接 
为 纽带 。12C 核 心中 的 主要 函数 如 下 。 


(1) 增加 /删除 i2c_adapter 


函数 ， 这 个 文件 一 般 不 需要 被 工程 师 修改 ， 但 是 理解 其 中 的 主要 函数 非常 关键 ， 


体 的 实例 。 


为 I2C 总 线 驱动 和 设备 驱动 之 间 以 12C 核 心 作 


int i2c add adapter (struct i2c_adapter *adap); 
void i2c del adapter (struct i2c adapter *adap); 


(2) 增加 /删除 i2c_driver 


int i2c register driver(struct module *owner, struct i2c_driver *driver); 
void i2c del driver(struct i2c driver *driver); 
#tdefine J2c add driver (driver) \ 

i2c_register_driver (THIS MODULE, driver) 


(3) 12C 传 输 、 发 送 和 接收 


int i2c_transfer(struct i2c_adapter * adap, struct i2c_msg *msgs, int num); 
int i2c_master_send(struct i2c_client *client,const char *buf ,int count); 
int i2c_master_recv(struct i2c_client *client, char *buf ,int count); 


i2c_transfer () 函数 用 于 进行 2C 适 配器 和 12C 设 备 之 间 的 一 组 消息 交互 ， 其 中 第 2 个 参数 是 一 个 指向 j2c_msg 数 组 的 指针 ， 所 以 ji2c_transfer () 一 次 可 以 传输 多 个 i2c_msg (考虑 到 很 多 外 设 的 读 写 波 


形 比 较 复杂 ， 比 如 读 寄存 器 可 能 要 先 写 ， 所 以 需要 两 个 以 上 的 消息 ) 。 而 对 于 时 序 比 较 简 单 的 外 设 ，i2c_master_send () 函数 和 i2c_master_recv() 函数 内 部 会 调 有 


消息 和 一 条 读 消息 ， 如 代码 清单 15.6、15.7 所 示 。 


代码 清单 15.6 ”12C 核 心 的 i2c_master_send () 函数 


i2c_transfer () 函数 分 别 完成 一 条 写 


lint i2c_master_send(const struct i2c_client *client, const char *buf, int count) 


2{ 

3 int ret; 

4 struct i2c_adapter *adap = client->adapter; 
5 struct i2c_msg msg; 

6 

时 msg.addr = client->addr; 

8 msg.flags = client->flags & I2C M TEN; 

9 msg.len = count; 

10 msg.buf = (char *)buf; 

11 

12 ret = i2c_transfer(adap, &msg, 1); 

13 

14 ye 

15 * If everything went ok (i.e. 1 msg transmitted), return #bytes 
16 * transmitted, else error code. 

17 "y 

18 return (ret == 1) count : ret; 

19} 


代码 清单 15.7 12C 核 心 的 i2c_master_recv () 函数 


lint i2c_master_recv(const struct i2c_client *client, char *buf, int count) 


2{ 

3 struct i2c adapter *adap = client->adapter; 
4 struct i2c_msg msg; 

5 int ret; 

6 

7 msg.addr = client->addr; 

8 msg.flags = client->flags & I2C_M TEN; 

9 msg.flags |= I2C M RD; 

10 msg.len = count; ` 

11 msg.buf = buf; 

12 

13 ret = i2c_transfer (adap, &msg, 1); 

14 

15 ys 

16 * If everything went ok (i.e. 1 msg received), return #bytes received, 
17 * else error code. 

18 */ 

19 return (ret == 1) count : ret; 
20} 


i2c_transfer () 函数 本 身 不 
代码 清单 15.8 所 示 。 


备 驱 动 适配器 物理 硬件 以 完成 消息 交互 的 能 力 ， 它 只 是 寻找 到 与 j2c_ adapter 对 应 的 i2c_algorithm， 并 使 


i2c algorithm 的 master xfer () 函数 真正 驱动 硬件 流程 ， 如 


代码 清单 15.8 ”12C 核 心 的 i2c transfer () 函数 


lint i2c_transfer(struct i2c_adapter * adap, struct i2c_msg *msgs, int num) 


2{ 
3 int ret; 
4 
5 if (adap->algo->master_xfer) { 
6 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
7 ret = adap->algo->master_ xfer (adap, msgs, num) ; ~ 
8 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
9 return ret; 
10 } else { 
11 dev_dbg(&adap->dev, "I2C level transfers not supported\n"); 
12 return -ENOSYS; 
13 } 
14} 


15.3 Linux 1<C 适 配器 驱动 


15.3.1 “12C 适 配器 驱动 的 注册 与 注销 


由 于 IC 总线 控制 器 通常 是 在 内 存 上 的 ， 所 以 它 本 身 也 连接 在 platform 总 线 上 ， 要 通过 platform_driver 和 platform_device 的 匹配 来 执行 。 因 此 尽管 |2C 适 配器 给 别人 提供 了 总 线 ， 它 自己 也 被 认为 是 接 
在 platform 总 线 上 的 一 个 客户 。Linux 的 总 线 、 设 备 和 驱动 模型 实际 上 是 一 个 树 形 结构 ， 每 个 节点 虽然 可 能 成 为 别人 的 总 线 控制 器 ， 但 是 自己 也 被 认为 是 从 上 一 级 总 线 枚 举 出 来 的 。 


通常 我 们 会 在 与 |2C 适 配器 所 对 应 的 platform_driver 的 probe () 函数 中 完成 两 个 工作 。 

.初始 化 PC 适配器 所 使 用 的 硬件 资源 ， 如 申请 I/O 地 址 、 中 断 号 、 时 钟 等 。 

- 通过 i2c_add_adapter () 添加 i2c_adapter 的 数据 结构 ， 当 然 这 个 i2c_adapter 数 据 结构 的 成 员 已 经 被 xxx 适 配器 的 相应 函数 指针 所 初始 化 。 
通常 我 们 会 在 platform_driver 的 remove () 函数 中 完成 与 加 载 函数 相反 的 工作 。 

+ 释放 IC 适配器 所 使 用 的 硬件 资源 ， 如 释放 I/O 地 址 、 中 断 号 、 时 钟 等 。 

- 通过 i2c_del_adapter () 删除 i2c_adapter 的 数据 结构 。 
代码 清单 15.9 所 示 为 12C 适 配器 驱动 的 注册 和 注销 模板 。 


代码 清单 15.9 12C 适 配置 驱动 的 注册 和 注销 模板 


lstatic int xxx_i2c_probe(struct platform device *pdev) 


2{ 
3 struct i2c_adapter *adap; 
4 
5 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
6 xxx_adpater_hw_init () 
7 adap->dev.parent = &pdev->dev; 
8 adap->dev.of_node = pdev->dev.of_node; 
9 
10 re = i2c_add_adapter (adap) ; 
11 http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
12} 
13 
14static int xxx_i2c_remove(struct platform_device *pdev) 
15{ 
16 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
7 xxx_adpater_hw_free() 
18 i2c_del_adapter (&dev->adapter) ; 
19 
20 return 0; 
21} 
22 
23static const struct of device id xxx_i2c_of_match[] = { 
24 {.compatible = "vendor, xxx-i2c", }, 
25 {}, 
26}; 
27MODULE_DEVICE_TABLE(of, xxx i2c of match); 
28 
29static struct platform driver xxx_i2c driver = { 
30 .driver = { 
31 .name = "xxx-i2c", 
32 -owner = THIS MODULE, 
33 .of match table = xxx i2c of match, 
34 }, 
35 «probe = xxx_i2c probe, 
36 .remove = xxx_i2c_remove, 
37}; 


38module_platform_driver (xxx_i2c_driver) ; 


上 述 代码 中 的 xxx_adpater_hw init () 和 xxx_adpater_hw free () 函数 的 实现 都 与 具体 的 CPU 和 12C 适 配器 硬件 直接 相关 。 


15.4 Linux 12C 设 备 驱动 


12C 设 备 驱动 要 使 用 i2c_driver 和 i2c_client 数 据 结构 并 填充 i2c_driver 中 的 成 员 函 数 。i2c _client 一 般 被 包含 在 设备 的 私有 信息 结构 体 yyy_data 中 ， 而 i2c_driver 则 适合 被 定义 为 全 局 变量 并 初始 化 ， 代 码 清 
单 15.12 所 示 为 已 被 初始 化 的 i2c_driver。 


代码 清单 15.12 ”被 初始 化 的 i2c_driver 


lstatic struct i2c_driver yyy driver = { 


2 .driver = { 

3 name = "yyy", 

4 Fa 

5 probe = yyy_probe, 
6 remove = yyy remove, 


7 .id table = yyy_id, 


15.5 Tegra 12C 总 线 驱动 实例 


NVIDIA Tegra I?2C 总 线 驱 动 位 于 drivers/i2c/busses/i2c-tegra.c 下 ， 这 里 我 们 不 具体 研究 它 的 硬件 细节 ， 只 看 一 下 驱动 的 框架 和 流程 


12C 总 线 驱 动 是 一 个 单独 的 驱动 ， 在 模块 的 加 载 和 印 载 函数 中 ， 只 需 注 册 和 注销 一 个 platform_driver 结 构 体 ， 如 代码 清单 15.18 所 示 。 


代码 清单 15.18 Tegra 1?C 总 线 驱 动 的 模块 加 载 与 印 载 


1/* Match table for of platform binding */ 
2static const struct of device id tegra i2c of match[] = { 
3 { .compatible = "nvidia, tegral14-i2c", .data = &tegrall4 i2c hw, }, 


4 { .compatible "nvidia, tegra30-i2c", .data = &tegra30_ i2c : hw, }, 

5 { .compatible "nvidia, tegra20-i2c", .data = &tegra20 i126 hw, }, 

6 { .compatible = "nvidia, tegra20-i2c-dvc", .data = ategra20_i2c_hw, }, 
7 it; 

8}; 

MODULE DEVICE TABLE (of, tegra_i2c_of_match); 

10 


llstatic struct platform driver tegra i2c driver = { 


12 .Probe = tegra_i2c probe, 

13 . remove tegra_i2c_remove, 

14 driver = { 

15 ‘name = "tegra-i2c", 

16 -owner = THIS MODULE, 

17 -of_match_table = tegra_i2c_of_match, 

18 .pm = TEGRA I2C PM, 

19 hy 

20}; 

21 

22static int _ init tegra i2c init driver (void) 

23{ 

24 return platform driver_register (&tegra_i2c_driver); 
25} 

26 

27static void _ exit tegra_i2c_exit_driver (void) 

28{ 

29 platform_driver_unregister(&tegra_i2c_ driver) ; 
30} 

31 


32subsys_initcall (tegra_i2c_init driver); 
33module_exit (tegra_i2c_exit_driver) ; 


当 在 archyarm/mach-tegra 下 创建 一 个 名 字 为 tegra-i2c 的 同名 platform_device， 或 者 在 tegra 的 设备 树 中 添加 了 tegra_i2c_of_ match 匹配 表 兼 容 的 节点 后 ， 上 述 platform_driver 中 的 probe () 函数 
会 执行 。 


其 中 probe 指 针 指向 的 tegra_i2c_probe () 函数 将 被 调用 ， 以 初始 化 适配器 硬件 、 申 请 适配器 要 的 内 存 、 时 钟 、 中 断 等 资源 ， 最 终 注册 适配器 ， 如 代码 清单 15.19 所 示 。 


代码 清单 15.19 Tegra 12C 总 线 驱动 中 的 tegra_i2c_probe () 函数 


1static int tegra_i2c_probe(struct platform device *pdev) 


2{ 

3 struct tegra i2c dev *i2c_dev; 
4 struct resource *res; 

5 struct clk *div_clk; 

6 struct clk *fast_clk; 

7 void _ iomem *base; 

8 int irq; 

9 int ret = 0; 

10 


11 res = platform get_resource (pdev, IORESOURCE MEM, 0); 

12 base = devm ioremap resource (&pdev->dev, res); 

13 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
14 res = platform get resource (pdev, IORESOURCE_IRQ, 0); T 

15 http: //www .hzcourse .com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
16 irq = res->start; 


18 div clk = devm_clk_get (&pdev->dev, "div-clk"); 
19 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


21 i2c_dev = devm_kzalloc(&pdev->dev, sizeof (*i2c_dev), GFP_KERNEL) ; 
22 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


24 i2c_dev->base = base; 

25 i2c_dev->div_clk = div_clk; 

26 i2c_dev->adapter.algo = &tegra_i2c algo; 
27 i2c dev->irq = irq; 


28 i2c_dev->cont_id = pdev->id; 

29 i2c_dev- >dev = &pdev->dev; 

30 

31 i2c_dev->rst = devm_reset_control_get (&pdev->dev, "i2c"); 

32 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
33 

34 ret = of_property_read_u32(i2c_dev->dev->of_node, "clock-frequency", 

35 &i2c_dev->bus_clk_rate); 


36 if (ret) 
37 i2c_dev->bus_clk_rate = 100000; /* default clock rate */ 


38 

39 i2c_dev->hw = &tegra20_i2c_ hw; 

40 

41 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
42 init_completion (&i2c_dev->msg_complete) ; 

43 

44 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
45 

46 platform_set_drvdata(pdev, i2c_dev); 

47 

48 ret = tegra_i2c_init(i2c_dev); 

49 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
50 

51 ret = devm_request_irg(&pdev->dev, i2c_dev->irgq, 

52 tegra_i2c isr, 0, dev_name(&pdev->dev), i2c dev); 

53 http: //www.hzcourse. com/resource/readBook?path= /openresources/teach « ebook/uncompressed/15319/OEBPS/Text/... 
54 


55 i2c_set_adapdata(&i2c dev->adapter, i2c dev); 

56 i2c_dev->adapter.owner = THIS MODULE; ` 

57 i2c_dev->adapter.class = I2C_CLASS DEPRECATED; 

58 strlcpy(i2c_dev->adapter.name, "Tegra I2C adapter", 


59 sizeof (i2c_dev->adapter.name) ) 7 

60 i2c_dev->adapter.algo = &tegra_i2c_algo; 

61 i2c_dev->adapter.dev.parent = &pdev->dev; 

62 i2c_dev->adapter.nr = pdev->id; 

63 i2c_dev->adapter.dev.of_node = pdev->dev.of_node; 
64 


65 ret = i2c_add_numbered_adapter(&i2c_dev->adapter) ; 


66 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
67 


68 return 0; 
69} 


有 与 tegra_i2c_probe () 函数 相反 功能 的 函数 是 tegra_i2c remove () 函数 ， 它 在 适配器 模块 卸载 函数 调用 platform_driver_unregister () 函数 时 通过 platform_driver 的 remove 指 针 方式 被 调用 。 
tegra_i2c_remove () 的 代码 如 清单 15.20 所 示 。 


代码 清单 15.20 Tegra 12C 总 线 驱 动 中 的 tegra_i2c_remove () 函数 


lstatic int tegra_i2c_remove(struct platform device *pdev) 


2{ 

3 struct tegra i2c dev *i2c_dev = platform_get_drvdata (pdev) ; 
4 i2c_del_adapter (&i2c_dev->adapter) ; te 

5 return 0; 

6} 


代码 清单 15.19 和 代码 清单 15.20 中 的 tegra_i2c_dev 结 构 体 可 进行 适配器 所 有 信息 的 封装 ， 类 似 于 私有 信息 结构 体 ， 代 码 清单 15.21 所 示 为 tegra_i2c_dev 结 构 体 的 定义 。 我 们 在 编程 中 要 时 刻 牢 记 Linux 
这 个 编程 习惯 ， 这 实际 上 也 是 面向 对 象 的 一 种 体现 。 


代码 清单 15.21 tegra_i2c_dev 结 构 体 


lstruct tegra i2c dev { 


2 struct device *dev; 

3. const struct tegra i2c hw feature *hw; 
4 struct i2c_adapter adapter; 

5 struct clk *div_clk; 

6 struct clk *fast_clk; 

7 struct reset_control *rst; 

8 void __iomem *base; 

9 int cont_id; 

10 int irg; 

11 bool irq disabled; 

12 int is_dvc; 

13 struct completion msg_complete; 
14 int msg_err; 

15 u8 *msg_buf; 

16 size_t msg_buf_remaining; 

17 int msg | read; 


18 u32 bus clk rate; 
19 bool is_suspended; 
20}; 


tegra_i2c_probe () 函数 中 的 platform_set drvdata (pdev, i2c_dev) 和 i2c set adapdata (&i2c_dev->adapter, i2c_dev) 已 经 把 这 个 结构 体 的 实例 依附 到 了 platform_device 和 i2c_adapter 的 
私有 数据 上 了 ， 在 其 他 地 方 只 要 用 相应 的 方法 就 可 以 把 这 个 结构 体 的 实例 取出 来 。 


由 代码 清单 15.19 的 第 60 行 可 以 看 出 ， 与 |2C 适 配器 对 应 的 i2c algorithm 结构 体 实 例 为 tegra_i2c_algo， 代 码 清单 15.22 给 出 为 tegra_i2c algo 的 定义 。 


代码 清单 15.22 tegra_i2c algo 结 构 体 


lstatic const struct i2c_algorithm tegra_i2c_algo = { 


2 -master_xfer = tegra i2c xfer, 
3 . functionality = tegra: i2c : > func, 
ay; 


上 述 代码 第 一 行 指定 了 Tegra 12C 总 线 通信 传输 函数 tegra_i2c xfer () ， 这 个 函数 非常 关键 ， 所 有 在 12C 总 线 上 对 设备 的 访问 最 终 应 该 由 它 来 完成 ， 代 码 清单 15.23 所 示 为 这 个 重要 函数 以 及 其 依赖 的 
tegra i2c xfer msg () 函数 的 源 代码 。 


代码 清单 15.23 Tegra 12C 总 线 驱动 的 tegra_i2c xfer () 函数 


lstatic int tegra_i2c_xfer_msg(struct tegra_i2c_dev *i2c dev 
2 struct i2c_msg *msg, enum msg_end_type end_state) 


4 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
5 i2c dev->msg buf = msg->buf; 

6 i2c_dev->msg_buf_remaining = msg->len; 

7 2c dev->msg_err = 12C ERR NONE; 

8 i2c dev->msg read = (msg->flags & I2C M RD); 

9 reinit_completion(&i2c_dev->msg_complete) ; 


10 

11 packet_header = (0 << PACKET HEADERO HEADER SIZE SHIFT) | 

12 PACKET HEADERO PROTOCOL I2C | 

13. (12c_¢ dev->cont_id << PACKET HEADERO CONT_ID_SHIFT) | 
14 (1 << PACKET HEADERO PACKET ID SHIFT); 

15 i2c_writel (i2c_dev, packet_header, I2C TX FIFO); 

16 


17 packet_header = msg->len - 1; 
18 i2c_writel(i2c_dev, packet_header, I2C TX FIFO); 


20 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


22 ret = wait_for_completion_timeout (&i2c_dev->msg_complete, TEGRA_I2C_TIMEOUT) ; 
23 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
24} 

25 

26static int tegra_i2c xfer(struct i2c adapter *adap, struct i2c msg msgs[], 

27 int num) aj tee z < 

28{ 

29 struct tegra_i2c_dev *i2c_dev = i2c_get_adapdata (adap) ; 

30 int i; 

31 int ret = 0; 

32 

33 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
34 

35 for (i = 0; i < num; itt) { 

36 enum msg_end_type on | type = MSG END STOP; 

37 if (i < (num - 1)) 

38 if (msgs[i + it: flags & I2C M NOSTART) 

39 end_type = MSG_END_CONTINUE; 

40 else at, ag 

41 end type = MSG END REPEAT START; 

42 } 

43 ret = tegra_i2c_xfer_msg(i2c_dev, &msgs[i], end_type); 

44 if (ret) 

45 break; 

46 } 

47 tegra i2c clock disable (i2c dev); 

48 return ret : i; 

49} 


从 代码 层面 上 看 ， 第 35 行 的 for 循 环 遍历 所 有 的 i2c_msg， 而 每 个 ji2c_msg 则 由 tegra_i2c xfer msg () 函数 处 理 ， 它 每 次 发 起 硬件 操作 后 ， 实 际 上 需要 通过 wait for completion_timeout () 等 待 传 


输 的 完成 ， 


因此 这 里 面 就 会 有 一 个 被 调度 出 去 的 过 程 。 中 断 到 来 且 12C 的 包 传输 结束 的 时 候 ， 就 是 唤醒 这 个 睡眠 进程 的 时 候 ， 如 代码 清单 15.24 所 示 。 


代码 清单 15.24 Tegra 12C 总 线 驱动 的 中 断 服 务 程序 


1static irgreturn_t tegra_i2c_isr(int irq, void *dev_id) 


2{ 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


if (status & I2C INT PACKET XFER COMPLETE) { 


} 


BUG ON (i2c_dev->msg_buf_remaining) ; 
complete (&i2c_dev->msg_complete) ; 


return IRQ HANDLED; 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


15.6 AT24xx EEPROM 的 12C 设 备 驱动 实例 


drivers/misc/eeprom/at24.c 文 件 支持 大 多 数 |2C 接 口 的 EEPROM ， 正 如 我 们 之 前 所 述 ， 一 个 具体 的 I2C 设 备 驱动 由 i2c_driver 的 形式 进行 组 织 ， 
身 所 属 类 型 的 驱动 。 对 于 EEPROM 而 言 ， 设 备 本 身 的 驱动 以 bin_attribute 二 进 制 sysfs 节 点 形式 呈现 。 代 码 清单 15.25 给 出 了 该 驱动 的 框架 。 


代码 清单 15.25 AT24xx EEPROM 驱 动 


于 将 设备 挂 接 于 12C 总 线 ， 组 织 好 了 后 ， 再 完成 设备 本 


lstruct at24 data { 


2 
3 
4 
5 
6}; 
p 


struct at24 platform data chip; 

http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
struct bin attribute bin; a 

http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


8static const struct i2c device id at24 ids[] = { 


9 
10 
11 
12 
13 
14 
15 
16}; 


/* needs 8 addresses as A0-A2 are ignored */ 

{ "24c00", AT24 DEVICE MAGIC(128 / 8, AT24 FLAG TAKE8ADDR) }, 

/* old variants can't be handled with this generic entry! */ 

{ "24c01", AT24 DEVICE MAGIC(1024 / 8, 0) }, 

{ "24c02", AT24 DEVICE MAGIC(2048 / 8, 0) }, 

http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
{ /* END OF LIST */ } z 


17MODULE DEVICE TABLE (i2c, at24_ids); 


18 


19static ssize t at24 eeprom read (struct at24 data *at24, char *buf, 


20 
21{ 
22 
23 
24 
25 
26} 
27 


unsigned offset, size_t count) 


struct i2c msg msg[2]; 

http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
i2c_transfer(client->adapter, msg, 2); fo 

http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


28static ssize t at24 read(struct at24 data *at24, 


29 
30{ 
31 
32 
33 
34 
35 
36 
37 } 
38 


char *buf, loff_t off, size_t count) 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


status = at24 eeprom_read(at24, buf, off, count); 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


return retval; 


39static ssize t at24 bin read(struct file *filp, struct kobject *kobj, 


40 
41 
42{ 
43 
44 
45 
46 
47} 
48 
49... 
50 


struct bin attribute *attr, 
char *buf, loff t off, size_t count) 


struct at24 data *at24; 


at24 = dev_get_drvdata(container_of(kobj, struct device, kobj)); 
return at24 read(at24, buf, off, count); 


Slstatic int at24 probe(struct i2c_client *client, const struct i2c_device_id *id) 


52{ 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62} 
63 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
sysfs_bin_attr_init (&at24->bin) ; ~ 

at24->bin.attr.name = "eeprom"; 

at24->bin.attr.mode = chip.flags & AT24 FLAG IRUGO S_IRUGO : S_IRUSR; 

at24-—>bin.read = at24 bin read; 

at24->bin.size = chip.byte_len; 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
return err; 


64static int at24 remove(struct i2c client *client) 


65{ 
66 
67 
68 
69 
70 
71} 
72 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
sysfs_remove_bin file (&client->dev.kobj, &at24->bin); 
http:7/www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


return 0; 


73static struct i2c_driver at24 driver = { 


74 
75 


.driver = { 
.name = "at24", 
.Owner = THIS MODULE, 
tr 
.Probe = at24 probe, 
.remove = at24 remove, 
-id_table = at24 ids, 


83static int _ init at24 init (void) 


84{ 
85 
86 
87} 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
return i2c_add_driver(&at24 driver); 


88module_init (at24_init); 


89 


90static void _ exit at24 exit (void) 


91{ 
92 
93} 


i2c del driver(&at24 driver); 


94module_exit (at24 exit); 


driversmisc/eepromyat24.c 不 依赖 于 具体 的 CPU 和 12C 控 制 器 的 硬件 特性 ， 因 此 ， 如 果 某 一 电路 板 包含 该 外 设 ， 只 需要 在 板 级 文件 中 添加 对 应 的 i2c_board_ info, 40: 


static struct i2c board info i2c_devs0[] _ initdata = { 
{ I2C_BOARD_INFO("24c02", 0x57), }, 
li 


在 支持 设备 树 的 情况 下 ， 简 单 地 在 .dts 文 件 中 添加 一 个 节点 即 可 : 


i2c@11000 { 
status = "okay"; 


eeprom@57 { 
compatible = "atmel,24c02"; 
reg = <0x57>; 

}; 


15.7 总结 


Linux 的 I2C 驱 动 体系 结构 相当 复杂 ， 它 主要 由 3 部 分 组 成 ， 即 |2C 核 心 、12C 总 线 驱 动 和 12C 设 备 驱动 。12C 核 心 是 |C 总 线 驱 动 和 12C 设 备 驱动 的 中 间 枢 纽 ， 它 以 通用 的 、 与 平台 无 关 的 接口 实现 了 12C 中 设 
备 与 适配器 的 沟通 。12C 总 线 驱动 填充 ij2c_adapter 和 i2c_algorithm 结 构 体 ，12C 设 备 驱动 填充 ji2c_driver 结 构 体 并 实现 其 本 身 所 对 应 设备 类 型 的 驱动 。 


另外 ， 系 统 中 i2c-dev.c 文 件 定义 的 主 设备 号 为 89 的 设备 可 以 方便 地 给 应 用 程序 提供 读 写 |*C 设 备 寄存 器 的 能 力 ， 使 得 工程 师 在 大 多 数 时 候 并 不 需要 为 具体 的 |C 设 备 驱动 定义 文件 操作 接 


H 


第 16 章 USB 主 机、 设备 与 Gadget 驱 动 


本 章 导读 


在 Linux 系 统 中 ， 提 供 了 主机 侧 和 设备 侧 视 角 的 USB 驱 动 框架 ， 本 章 主 要 讲解 从 主机 侧 看 到 的 USB 主 机 控制 器 驱动 和 设备 驱动 ， 以 及 从 设备 侧 看 到 的 设备 控制 器 和 Gadget 驱 动 。 


16.1 节 给 出 了 Linux 系 统 中 USB 驱 动 的 整体 视图 ， 讲 解 了 Linux 中 从 主机 侧 和 设备 侧 看 到 的 USB 驱 动 


i 
> 


从 主机 侧 的 角度 来 看 ， 需 要 编写 的 USB 驱 动 程序 包括 主机 控制 器 驱动 和 设备 驱动 两 类 ，USB 主 机 控制 器 驱动 程序 控制 插入 其 中 的 USB 设 备 ， 而 USB 设 备 驱动 程序 控制 该 设备 如 何 作为 从 设备 与 主机 通 
信 。16.2 节 分 析 了 USB 主 机 控制 器 驱动 的 结构 并 给 出 Chipidea USB 主 机 驱动 实例 ，16.3 节 讲解 了 USB 设 备 驱动 的 结构 及 其 设备 请 求 块 处 理 过 程 ， 并 给 出 了 USB 键 盘 驱动 实例 。 


从 设备 侧 的 角度 来 看 ， 包 含 编写 USB 设 备 控制 器 (UDC) 驱动 和 Gadget Function 驱 动 两 类 ，16.4 节 对 UDC 和 Gadget 驱 动 进行 了 讲解 ， 并 给 出 了 Chipidea USB UDC 和 Loopback Function 作 为 实 
例 。 


16.5 节 简单 地 介绍 了 一 下 USB OTG 驱 动 。 
16.1 节 与 16.2~16.5 节 是 整体 与 部 分 的 关系 。 


16.1 Linux USB 驱 动 层次 


16.1.1 ”主机 侧 与 设备 侧 USB 驱 动 


USB 采 用 树 形 拓扑 结构 ， 主 机 侧 和 设备 侧 的 USB 控 制 器 分 别称 为 主机 控制 器 (Host Controller) 和 USB 设 备 控制 器 (UDC) ， 每 条 总 线 上 只 有 一 个 主机 控制 器 ， 负 责 协 调 主机 和 设备 间 的 通信 ， 而 设备 
不 能 主动 向 主机 发 送 任何 消息 。 如 图 16.1 所 示 ， 在 Linux 系 统 中 ，USB 驱 动 可 以 从 两 个 角度 去 观察 ， 一 个 角度 是 主机 侧 ， 一 个 角度 是 设备 侧 。 


fl; 


如 图 16.1 的 左 侧 所 示 ， 从 主机 侧 去 看 ， 在 Linux 驱 动 中 ， 处 于 USB 驱 动 最 底层 的 是 USB 主 机 控制 器 硬件 ， 在 其 上 运行 的 是 USB 主 机 控制 器 驱动 ， 在 主机 控制 器 上 的 为 USB 核 心 层 ， 再 上 层 为 USB 设 备 驱动 
z (插入 主机 上 的 U 盘 、 鼠 标 、USB 转 串口 等 设备 驱动 ) 。 因 此 ， 在 主机 侧 的 层次 结构 中 ， 要 实现 的 USB 驱 动 包括 两 类 : USB 主 机 控制 器 驱动 和 USB 设 备 驱动 ， 前 者 控制 插入 其 中 的 USB 设 备 ， 后 者 控制 USB 
设备 如 何 与 主机 通信 。Linux 内 核 中 的 USB 核 心 负责 USB 驱 动 管理 和 协议 处 理 的 主要 工作 。 主 机 控制 器 驱动 和 设备 驱动 之 间 的 USB 核 心 非常 重要 ， 其 功能 包括 : 通过 定义 一 些 数据 结构 、 宏 和 功能 函数 ， 向 上 
为 设备 驱动 提供 编程 接口 ， 向 下 为 USB 主 机 控制 器 驱动 提供 编程 接口 ; 维护 整个 系统 的 USB 设 备 信息 ; 完成 设备 热 插 拔 控制 、 总 线 数据 传输 控制 等 。 


JSB 设 备 驱 动 
Mass storage/CDC/HID 


USB 核 心 


USB 主 机 控制 器 驱动 OHCI/EHCLUHCI 


USB 主 机 控制 器 


USB 总 线 


图 16.1 Linux USB 了 驱动 总 体 结构 


如 


图 


16.1 的 右 侧 所 示 ，Linux 内 核 中 USB 设 备 侧 驱 动 程序 分 为 3 个 


全 通信 
E. 


， 向 上 
“打印 机 ”或 “USB Mass Storage” 等 特性 ， 它 使 


得 在 Linux 系 统 中 编写 USB 设 备 侧 驱动 程序 时 能 够 把 功能 的 实现 和 底层 通信 分 离 。 


16.2 ”USB 主机 控制 器 驱动 


16.2. 


1 USB 主机 控制 器 驱动 的 整体 结构 


Gadet Function API 


UDC 驱动 (omap/pxa2xx...) 


USB 设 备 控制 器 


ÆR: UDC 驱动 程序 、Gadget Function API 和 Gadget Function 驱 动 程序 。UDC 驱 动 程序 直接 访问 硬件 ， 控 制 USB 设 备 和 主机 间 的 底 
屋 提 供与 硬件 相关 操作 的 回调 函数 。 当 前 Gadget Function API 是 UDC 驱动 程序 回调 函数 的 简单 包装 。Gadget Function 驱 动 程序 具体 控制 USB 设 备 功能 的 实现 ， 使 设备 表现 出 “网 络 连 
Gadget Function API 控 制 UDC 实 现 上 述 功 能 。Gadget Function API 把 下 层 的 UDC 驱动 程序 和 上 


层 的 Gadget Function 驱 动 程序 隔离 开 ， 使 


USB 主 机 控制 器 有 这 些 规格 : OHCI (Open Host Controller Interface) 、UHCI (Universal Host Controller Interface) 、EHCI (Enhanced Host Controller Interface) 和 xHCI (eXtensible 


Host Controller Interface) 。OHCI 驱 动 程序 


前 主要 是 


向 USB 3.0 的 ， 同 时 它 也 支持 USB 2.0 及 以 下 的 设备 。 


它 


1. 主 机 控制 器 驱动 


在 Linux 内 核 中 ， 上 


来 为 非 PC 系 统 上 以 及 带 有 Sis 和 ALi 芯 片 组 的 PC 主板 上 的 USB 芯 片 提供 支持 。UHCI 驱 动 程序 多 
供 支 持 。EHCI 由 USB 2.0 规 范 所 提出 ， 它 兼容 于 OHCI 和 UHCI。 由 于 UHCI 的 硬件 线路 比 OHCI 简 单 ， 所 以 成 本 较 低 ， 但 需要 较 复杂 的 驱动 程序 ，CPU 负 荷 稍 重 。 
司 开发 的 一 个 USB 主 机 控制 器 接口 ， 


来 为 大 多 数 其 他 PC3 
xHCI， 即 可 扩 


EAR (包括 Intel 和 Via) 上 的 USB 芯 片 提 
展 的 主机 控制 器 接 


是 Intel 公 


代码 清单 16.6 ”usb_hcd 结 构 体 


lstruct usb hcd { 


2 struct usb bus self; /* hed is-a bus */ 

3 struct kref kref; /* reference counter */ 

4 

5 const char *product_desc; /* product/vendor string */ 
6 int speed; /* Speed for this roothub. 
zh * May be different from 

8 * hed->driver->flags & HCD_MASK 

9 + 

10 char irq_descr[24]; /* driver + bus # */ 

11 

12 struct timer_list rh timer; /* drives root-hub polling */ 
13 struct urb *status_urb; /* the current status urb */ 
14#ifdef CONfiG PM T 

15 struct work_struct wakeup work; /* for remote wakeup */ 
16#endif T T 

17 

18 const struct hc driver *driver; /* hw-specific hooks */ 
19 
20 struct usb_phy *usb_phy; 
21 struct phy *phy; 
22 
23 unsigned long flags; 
24 
25 
26 
27 /* The HC driver's private data is stored at the end of 
28 * this structure. 
29. RY: 

30 unsigned long hcd priv[0] 

31 __attribute_ ( (aligned (sizeof (s64)))); 

32}; 


usb_hcd 结 构 体 中 第 18 行 的 hc_driver 成 员 非常 重要 ， 它 包 


体 的 


于 操作 主机 控制 器 的 钩子 函数 ， 即 “hw-specific hooks 


usb_hcd 结 构 体 描述 USB 主 机 控制 器 驱动 ， 它 包含 USB 主 机 控制 器 的 “家 务 ”信息 、 硬 件 资源 、 状 态 描述 和 


于 操作 主机 控制 器 的 hc_driver 等 ， 其 定义 如 代码 清单 16.6 所 示 。 


”， 其 定义 如 代码 清单 16.7 所 示 。 


代码 清单 16.7 hc_driver 结 构 体 


lstruct hc driver { 


51 


52}; 


const char *description; /* "ehci-hcd" etc */ 
const char *product_desc; /* product/vendor string */ 
size 七 hcd priv size; /* size of private data */ 


/* irq handler */ 
irgreturn_t(*irg) (struct usb hcd *hcd); 


int flags; 
/* called to init HCD and root hub */ 


int (*reset) (struct usb_hcd *hcd); 
int (*start) (struct usb_hcd *hcd); 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


/* cleanly make HCD stop writing memory and doing I/O */ 
void (*stop) (struct usb hcd *hcd); 


/* shutdown HCD */ 
void (*shutdown) (struct usb hcd *hed); 


/* return current frame number */ 
int (*get_frame_number) (struct usb_hcd *hcd); 


/* manage i/o requests, device state */ 
int (*urb_enqueue) (struct usb_hcd *hcd, 
struct urb *urb, gfp_t mem_flags); 
int (*urb_dequeue) (struct usb hcd *hcd, 
struct urb *urb, int status); 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


/* Allocate endpoint resources and add them to a new schedule */ 
int (*add_endpoint) (struct usb hcd *, struct usb device *, 
~ struct usb_host_endpoint *); g 
/* Drop an endpoint from a new schedule */ 
int (*drop endpoint) (struct usb_hcd *, struct usb_device *, 
struct usb_host_endpoint *); 


int (*check bandwidth) (struct usb hcd *, struct usb device *); 

void (*reset bandwidth) (struct usb hcd *, struct usb device *); 
/* Returns the hardware-chosen device address */ 

int (*address_device) (struct usb_hcd *, struct usb_device *udev); 


http://www. hzcourse .com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


int (*set usb2 hw lpm) (struct usb hed *, struct usb device *, int); 
/* USB 3.0 Link Power Management */ T 
/* Returns the USB3 hub-encoded value for the U1/U2 timeout. */ 

int (*enable_usb3 lpm timeout) (struct usb_hcd *, 

struct usb : device *, enum usb3 link state state); 
int (*disable 1 usb3 . } lpm timeout) (struct "usb hed *, 

struct usb device *, enum usb3 link state state); 
int (*find raw port number) (struct usb hcd *, int); 
/* Call for power on/off the port if necessary */ 
int (*port_power) (struct usb hcd *hcd, int portnum, bool enable); 


在 Linux 内 核 中 ,使 用 如 下 函数 来 创建 HCD: 


struct usb_hcd *usb_create_hcd (const struct hc_driver *driver, 


struct device *dev, char *bus ; name) 7 


如 下 函数 被 用 来 增加 和 移 除 HCD: 


int usb_add_hed(struct usb hcd *hcd, 


unsigned int irgnum, unsigned long irgflags); 


void usb_remove_hed(struct usb hcd *hed) ; 


第 25 行 的 urb_enqueue () 函数 非常 关键 ， 实 际 上 ， 上 层 通过 usb_ submit urb () 提交 1 个 USB 请 求 后 ， 该 函数 调用 usb_hcd_ submit urb () , 


型 ) 的 urb_ enqueue () 函数 。 


2.EHCI 主 机 控制 器 驱动 


EHCI HCD 驱 动 属于 HCD 驱 动 的 实例 ， 它 定义 了 一 个 ehci_hcd 结 构 体 ， 通 常 作为 代码 清单 16.6 定 义 的 usb_hcd 结 构 体 的 私有 数据 (hcd_priv) , 


代码 清单 16.8 所 示 。 


代码 清单 16.8 ehci_hcd 结构 体 


并 最 终 调用 至 usb_hcd 的 driver 成 员 (hc_driver 类 


个 结构 体 的 定义 位 于 drivers/usb/host/ehci.h 中 ,如 


lstruct ehci_hcd { /* one per controller */ 

2 /* timing support */ 

3 enum ehci hrtimer event next_hrtimer_event; 

4 unsigned” enabled hrtimer events; 

5 ktime_t hr -timeouts [EHCI | HRTIMER_NUM EVENTS]; 

6 struct hrtimer hrtimer; 

7 

8 int PSS_poll_count; 

9 int ASS_poll count; 

10 int died. | poll ， count; 

11 http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
12 /* general schedule support */ 

13- bool scanning:1; 

14 bool need_rescan:1; 

15 bool intr_unlinking:1; 

16 bool iaa_in_progress:1; 

17 bool async_unlinking:1; 

18 bool shutdown:1; 

19 struct ehci qh *gh_scan_next; 
20 
21 /* async schedule support */ 
22. struct ehci qh *async; 
23 struct ehci qh *dummy; /* For AMD quirk use */ 
24 struct list_head async_unlink; 
25 struct list head async idle; 
26 unsigned async_unlink cycle; 
27 unsigned async_count; /* async activity count */ 
28 
29 /* periodic schedule support */ 

30#define DEFAULT I TDPS 1024 /* some HCs can do less */ 
31 unsigned periodic size; 

32 __he32 *periodic; /* hw periodic table */ 

33 dma addr t periodic_dma; 

34 struct list_head intr qh list; 

35 unsigned i thresh; /* uframes HC might cache */ 
36 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/0EBPS/Text/... 
37 /* bandwidth usage */ 


38#define EHCI_BANDWIDTH_SIZE 64 
39#define EHCI_BANDWIDTH_FRAMES (EHCI_BANDWIDTH_ SIZE >> 3) 


40 
41 
42 
43 
44 


u8 bandwidth [EHCI BANDWIDTH SIZE]; 
/* us allocated per uframe */ 
u8 tt budget [EHCI BANDWIDTH SIZE]; 


/* us budgeted per uframe */ 
struct list head tt list; 


45 


46 /* platform-specific data -- must come last */ 
47 unsigned long priv[0] _ aligned (sizeof (s64)); 
48}; 


使 用 如 下 内 联 函数 可 实现 usb_hcd 和 ehci_hcd 的 相互 转换 : 


struct ehci_hcd *hcd to ehci (struct usb hcd *hcd); 
struct usb hcd *ehci to hed (const struct ohci_hcd *ohci); 


从 usb_hcd 得 到 ehci_hcd 只 是 取得 “私有 ”数据 ， 而 从 ehci_hcd 得 到 usb_hcd 则 是 通过 container_of () 从 结构 体 成 员 获 得 结构 体 指针 。 


使 用 如 下 函数 可 初始 化 EHCI 主 机 控制 器 : 


static int ehci_init (struct usb_hed *hcd) 7 


如 下 函数 分 别 用 于 开启 、 停 止 及 复位 EHCI 控 制 器 : 


static int ehci run (struct usb hcd *hcd); 
static void ehci stop (struct usb hcd *hcd); 
static int ehci reset (struct ehci_hcd *ehci); 


上 述 函 数 在 drivers/usb/host/ehci-hcd.c 文 件 中 被 填充 给 了 一 个 hc_driver 结 构 体 的 generic 的 实例 ehci_hc_driver。 


static const struct hc driver ehci hc driver = { 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


.reset = ehci_setup, 
Start = ehci_run, 
.Stop = ehci_stop, 
.Shutdown = ehci_shutdown, 


drivers/usb/host/ehci-hcd.c 实 现 了 绝 大 多 数 ECHI 主 机 驱动 的 工作 ， 具 体 的 EHCI 实 例 简单 地 调 


void ehci_init_driver(struct hc driver *drv, 
const struct ehci_driver_overrides *over) ; 


初始 化 hc_driver 即 可 ， 这 个 函数 会 被 generic 的 ehci_hc _ driver 实 例 复制 给 每 个 具体 底层 驱动 的 实例 ， 当 然 底层 驱动 可 以 通过 第 2 个 参数 ， 即 ehci_driver_overrides 重 写 中 间 层 的 reset () . port_power () 
这 2 个 函数 ， 另 外 也 可 以 填充 一 些 额外 的 私有 数据 ， 这 一 点 从 代码 清单 16.9ehci_init_driver () 的 实现 中 可 以 看 出 。 


代码 清单 16.9 ”ehci_init_driver 的 实现 


lvoid ehci_init_driver (struct hc driver *drv, 


2 const struct ehci driver overrides *over) 

3{ 

4 /* Copy the generic table to drv and then apply the overrides */ 
5 *drv = ehci_hc_driver; 

6 

7 if (over) { 

8 drv->hed_priv_size += over->extra priv size; 
9 if (over->reset) 

10 drv->reset = over->reset; 

11 if (over->port power) 

12 drv->port_power = over->port_power; 
13 } 

14 } 


16.3 USB 设 备 驱 动 


16.3.1 ”USB 设备 驱动 的 整体 结构 


这 里 所 说 的 USB 设 备 驱动 指 的 是 从 主机 角度 来 看 ， 怎 样 访问 被 插入 的 USB 设 备 ， 而 不 是 指 USB 设 备 内 部 本 身 运 行 的 固件 程序 。Linux 系 统 实现 了 几 类 通用 的 USB 设 备 驱 动 (也 称 客户 驱动 ) ， 划 分 为 如 下 
几 个 设备 类 。 


“ 通信 设备 类 。 
- HID (人 机 接口 ) 设备 类 。 


“ 显示 设备 类 。 


ko 


:海量 存储 设备 类 。 


“ 电源 设备 类 。 


“ 打印 设备 类 。 


“ 集线器 设备 类 。 


一 般 的 通用 Linux 设 备 (如 U 盘 、USB 鼠 标 、USB 键 盘 等 ) 都 不 需要 工程 师 再 编写 驱动 ， 而 工程 师 需 要 编写 的 是 特定 厂商 、 特 定 芯 片 的 驱动 ， 而 且 往 往 也 可 以 参考 已 经 在 内 核 中 提供 的 驱动 模板 。 


Linux 内 核 为 各 类 USB 设 备 分 配 了 相应 的 设备 号 ， 如 ACM USB 调 制 解 调 器 的 主 设备 号 为 166 (默认 设备 名 /dev/ttyACMn) 、USB 打 印 机 的 主 设备 号 为 180， 次 设备 号 为 0~15 (默认 设备 
名 /dev/lpn) 、USB 串 口 的 主 设备 号 为 188 (默认 设备 名 /dewttyUSBn) 等 ， 详 见 http://www.lanana.org/ 网 站 的 设备 列表 。 


在 debugfs 下 ，/sys/kernel/debug/usb/devices 包 含 了 USB 的 设备 信息 ， 在 Ubuntu 上 插入 一 个 U 盘 后 ， 我 们 在 /sys/kernel/debug/usb/devices 中 可 看 到 类 似 信息 。 


sudo cat /sys/kernel/debug/usb/devices 
Bus=02 Lev=00 Prnt=00 Port=00 Cnt=00 Dev#= 1 Spd=12 MxCh= 8 
Alloc= 2/900 us ( 0%), #Int= 1, #Iso= 0 
Ver= 1.10 Cls=09(hub ) Sub=00 Prot=00 MxPS=64 #Cfgs= 1 
Vendor=1d6b ProdID=0001 Rev= 4.00 
Manufacturer=Linux 4.0.0-rel ohci_hcd 
Product=OHCI PCI host controller ~ 
SerialNumber=0000:00:06.0 
:* #Ifs= 1 Cfg#= 1 Atr=e0 MxPwr= OmA 
:* If#= 0 Alt= 0 #EPs= 1 Cls=09(hub ) Sub=00 Prot=00 Driver=hub 
Ad=81(I) Atr=03(Int.) MxPS= 2 Ivl=255ms::- 
Bus=01 Lev=01 Prnt=01 Port=00 Cnt=01 Dev#= 2 Spd=480 MxCh= 0 
Ver= 2.10 Cls=00(>ifc ) Sub=00 Prot=00 MxPS=64 #Cfgs= 1 
Vendor=0930 ProdID=6545 Rev= 1.00 
Manufacturer=Kingston 
Product=DataTraveler 3.0 
SerialNumber=60A44C3FAE22EEA0797900F7 
:* #Ifs= 1 Cfg#= 1 Atr=80 MxPwr=498mA 
:* If#= 0 Alt= 0 #EPs= 2 Cls=08(stor.) Sub=06 Prot=50 Driver=usb-storage 
Ad=81 (I) Atr=02 (Bulk) MxPS= 512 Ivl=0ms 
Ad=02 (O) Atr=02 (Bulk) MxPS= 512 Ivl=0ms 
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通过 分 析 上 述 记 录 信 息 ， 可 以 得 到 系统 中 USB 的 完整 信息 。USBView (http://www.kroah.com/linux-usb/) 是 一 个 图 形 化 的 GTK 工 具 ， 可 以 显示 USB 信 息 。 


此 外 ， 在 sysfs 文 件 系 统 中 ， 同 样 包含 了 USB 相 关 信 息 的 描述 ， 但 只 限于 接口 级 别 。USB 设 备 和 USB 接 口 在 sysfs 中 均 表示 为 单独 的 USB 设 备 ， 其 目录 命名 规则 如 下 : 


根 集 线 器 -集线器 端口 号 (- 集 线 器 端口 号 -http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/15319/OEBPS/Text/...) :配置 .接口 


下 面 给 出 一 个 /sys/bus/usb 目 录 下 的 树 形 结构 实例 ， 其 中 的 多 数 文件 都 是 锁定 到 /sys/devices 及 /sys/drivers 中 相应 文件 的 链接 。 


.| 一 devices |-— 1-0:1.0 -> http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/../http://www.hzcourse.com/resource, 


正如 tty_driver、i2c_driver 等 ， 在 Linux 内 核 中 ， 使 用 usb_driver 结 构 体 描述 一 个 USB 设 备 驱动 ，usb_driver 结 构 体 的 定义 如 代码 清单 16.11 所 示 。 


代码 清单 16.11 usb_driver 结 构 体 


lstruct usb driver { 


2 const char *name; 

3 

4 int (*probe) (struct usb_interface *intf, 

ic} const struct usb device id *id); 

6 

7 void (*disconnect) (struct usb_interface *intf); 
8 

9 int (*unlocked ioctl) (struct usb_interface *intf, unsigned int code, 
10 void *buf) ; 

11 

12 int (*suspend) (struct usb_interface *intf, pm_message_t message); 
13 int (*resume) (struct usb_interface *intf); 

14 int (*reset_resume) (struct usb_interface *intf); 
15 

16 int (*pre_reset) (struct usb_interface *intf); 

17 int (*post_reset) (struct usb_interface *intf); 
18 

19: const struct usb_device_id *id_table; 

20 

21 struct usb_dynids dynids; 

22 struct usbdrv_wrap drvwrap; 

23 unsigned int no_dynamic_id:1; 

24 unsigned int supports_autosuspend:1; 

25 unsigned int disable hub initiated lpm:1; 

26 unsigned int soft_unbind:1; 

ATFs 


在 编写 新 的 USB 设 备 驱动 时 ， 主 要 应 该 完成 的 工作 是 probe () 和 disconnect () 函数 ， 即 探测 和 断 开 函 数 ， 它 们 分 别 在 设备 被 插入 和 拔 出 的 时 候 调 用 ， 用 于 初始 化 和 释放 软 硬 件 资源 。 对 usb_driver 
的 注册 和 注销 可 通过 下 面 两 个 函数 完成 : 


int usb_register(struct usb_driver *new_driver) 
void usb_deregister (struct usb_driver *driver) ; 


usb_driver 结 构 体 中 的 id table 成 员 描述 了 这 个 USB 驱 动 所 支持 的 USB 设 备 列表 ， 它 指向 一 个 usb_device id 数组，usb_device id 结构 体 包含 有 USB 设 备 的 制造 商 ID、 产 品 ID、 产 品 版 本 、 设 备 类 、 接 口 
类 等 信息 及 其 要 匹配 标志 成 员 match_flags (标明 要 与 哪些 成 员 匹 配 ， 包 含 DEV_ LO、DEV_HI、DEV_CLASS、DEV_SUBCLASS、DEV_PROTOCOL、INT_CLASS、INT_SUBCLASS、INT_PROTOCOL) 。 
可 以 借助 下 面 一 组 宏 来 生成 usb_device_id 结 构 体 的 实例 : 


USB_DEVICE(vendor, product) 


该 宏 根据 制造 商 1D 和 产品 ID 生成 一 个 usb_device_ id 结构 体 的 实例 ， 在 数组 中 增加 该 元 素 将 意味 着 该 驱动 可 支持 与 制造 商 ID、 产 品 ID 匹配 的 设备 。 


USB_DEVICE_VER(vendor, product, lo, hi) 


该 宏 根据 制造 商 ID、 产 品 ID、 产 品 版 本 的 最 小 值 和 最 大 值 生成 一 个 usb_device_ id 结构 体 的 实例 ， 在 数组 中 增加 该 元 素 将 意味 着 该 驱动 可 支持 与 制造 商 ID、 产 品 ID 匹配 和 lo~hi 范 


内 版 本 的 设备 。 


USB_DEVICE_INFO(class, subclass, protocol) 


该 


M 


于 创建 一 个 匹配 设备 指定 类 型 的 usb_device_ id 结构 体 实 例 。 


USB_INTERFACE_INFO(class, subclass, protocol) 


该 


Mt 


于 创建 一 个 匹配 接口 指定 类 型 的 usb_device_ id 结构 体 实 例 。 


代码 清单 16.12 所 示 为 两 个 用 于 描述 某 USB 驱 动 支持 的 USB 设 备 的 usb_device id 结构 体 数组 实例 。 


代码 清单 16.12 ”usb_device id 结构 体 数组 实例 


1/* 本 驱动 支持 的 USB 设 备 列表 */ 
2 


3/* 实例 1 */ 

4static struct usb device id id table [] = { 
5 { USB DEVICE (VENDOR ID, PRODUCT_ID) }, 
6 i} 


7}; 
8MODULE_DEVICE TABLE (usb, id table); 
9 


10/* 实例 2 */ 

11static struct usb device id id table [] = { 

12 { .idVendor = 0x10D2, .match_flags = USB_DEVICE_ID MATCH VENDOR, }, 
13° AF 


; 
15MODULE_DEVICE TABLE (usb, id table); 


当 USB 核 心 检测 到 某 个 设备 的 属性 和 某 个 驱动 程序 的 usb_device id 结构 体 所 携带 的 信息 一 致 时 ， 这 个 驱动 程序 的 probe () 函数 就 被 执行 (如 果 这 个 USB 驱 动 是 个 模块 的 话 ， 相 关 的 .ko 还 应 被 Linux 自 
动 加 载 ) 。 拔 掉 设 备 或 者 卸 掉 驱动 模块 后 ，USB 核 心 就 执行 disconnect () 函数 来 响应 这 个 动作 。 


上 述 usb_ driver 结 构 体 中 的 函数 是 USB 设 备 驱 动 中 与 USB 相 关 的 部 分 ， 而 USB 只 是 一 个 总 线 ，USB 设 备 驱动 真正 的 主体 工作 仍然 是 USB 设 备 本 身 所 属 类 型 的 驱动 ， 如 字符 设备 、tty 设 备 、 块 设备 、 输 入 
设备 等 。 因 此 USB 设 备 驱动 包含 其 作为 总 线 上 挂 接 设备 的 驱动 和 本 身 所 属 设备 类 型 的 驱动 两 部 分 。 


与 platform_driver、i2c_driver 类 似 ，usb_driver 起 到 了 “牵线 ”的 作用 ， 即 在 probe () 里 注册 相应 的 字符 、tty 等 设备 ， 在 disconnect () 注销 相应 的 字符 、tty 等 设备 ， 而 原先 对 设备 的 注册 和 注销 
一 般 直接 发 生 在 模块 加 载 和 印 载 函数 中 。 


尽管 USB 本 身 所 属 设备 驱动 的 结构 与 其 挂 不 挂 在 USB 总 线 上 没什么 关系 ， 但 是 据 此 在 访问 方式 上 却 有 很 大 的 变化 ， 例 如 ， 对 于 USB 接 口 的 字符 设备 而 言 ， 尽 管 仍然 是 write () 、read () 、ioctl () 这 
些 函 数 ， 但 是 在 这 些 函 数 中 ， 贯 穿 始终 的 是 称 为 URB 的 USB 请 求 块 。 


如 图 16.3 所 示 ， 在 这 棵 树 里 ， 我 们 把 树 根 比 作 主 机 控制 器 ， 树 叶 比 作 具体 的 USB 设 备 ， 树 干 和 树枝 就 是 USB 总 线 。 树 叶 本 身 与 树枝 通过 usb_driver 和 连接 ， 而 树叶 本 身 的 驱动 GSS. él) 则 需要 通过 其 
树叶 设备 本 身 所 属 类 设备 驱动 来 完成 。 树 根 和 树叶 之 间 的 “通信 ”依靠 在 树干 和 树枝 里 “ 流 消 ” 的 URB 来 完成 。 


usb_driver 


树叶 设备 本 身 
所 属 类 设备 
驱动 


图 16.3 USB 设备 驱动 结构 


由 此 可 见 ，usb_driver 本 身 只 是 有 找到 USB 设 备 、 管 理 USB 设 备 连接 和 断 开 的 作用 ， 也 就 是 说 ， 它 是 公司 入 口 处 的 “打卡 机 ”， 可 以 获得 员工 (USB 设备 ) 的 上 /下 班 情况 。 树 叶 和 员工 一 样 ， 可 以 是 研 
发 工程 师 也 可 以 是 销售 工程 师 ， 而 作为 USB 设 备 的 树叶 可 以 是 字符 树叶 、 网 络 树叶 或 块 树叶 ， 因 此 必须 实现 相应 设备 类 的 驱动 。 


16.4 USB UDC 与 Gadget 驱 动 


16.4.1 UDC 和 Gadget 驱 动 的 关键 数据 结构 与 API 


这 里 的 USB 设 备 控制 器 (UDC) 驱动 指 的 是 作为 其 他 USB 主 机 控制 器 外 设 的 USB 硬 件 设备 上 底层 硬件 控制 器 的 驱动 ， 该 硬件 和 驱动 负责 将 一 个 USB 设 备 依附 于 一 个 USB 主 机 控制 器 上 。 例 如 ， 当 某 运行 
Linux 系 统 的 手机 作为 PC 的 U 盘 时 ， 手 机 中 的 底层 USB 控 制 器 行使 HSB 设 备 控制 器 的 功能 ， 这 时 候 运 行 在 底层 的 是 UDC 驱动 ， 而 手机 要 成 为 U 盘 ， 在 UDC 驱动 之 上 仍然 需要 另外 一 个 驱动 ， 对 于 USB 大 容量 
储 器 而 言 ， 这 个 驱动 为 File storage 驱动 ， 称 为 Function 驱 动 。 从 图 16.1 左 边 可 以 看 出 ，USB 设 备 驱 动 调 用 USB 核 心 的 AP1， 因 此 具体 驱动 与 SoC 无 关 ; 同样 ， 从 图 16.1 右 边 可 以 看 出 ，Function 驱 动 调 用 通 


的 Gadget Function API， 因 此 具体 Function 驱 动 也 变 得 与 SoC 无 关 。 软 件 分 层 设计 的 好 处 再 一 次 得 到 了 深刻 的 体现 。 


UDC 驱动 和 Function 驱 动 都 位 于 内 核 的 drivers/usby/gadget 目 录 中 ,如 drivers/usby/gadgetyudc 下 面 的 fs mxc_udc.c、omap_udc.c、s3c2410_udc.c 等 是 对 应 SoC 平 台 上 的 UDC 驱 动 , 而 
driversusby/gadget/function 子 目录 的 f serial.c、f_mass storage.C、f _rndis.c 等 文件 实现 了 一 些 Gadget 功 能 ， 重 要 的 Function 驱 动 如 下 所 示 。 


Ethernet over USB: 该 驱动 模拟 以 太 网 网 口 ， 它 支持 多 种 运行 方式 一 一 CDC Ethernet (实现 标准 的 Communications Device Class"Ethernet Model" 协 议 ) 、CDC Subset 以 及 RNDIS (微软 公司 对 
CDC Ethernet 的 变种 实现 ) 。 


File-Backed Storage Gadget: 最 常见 的 U 盘 功能 实现 。 


Serial Gadget: 包括 Generic Serial 实 现 (只 需要 Bulk-in/Bulk-out 端 点 +ep0) 和 CDC ACM 规 范 实现 。 内 核 源 代 码 中 的 Documentation/usb/gadget _serial.txt 文 档 讲解 了 如 何 将 Serial Gadget 与 


Windows 和 


Linux 主 机 连接 。 


Gadget MIDI: 暴露 ALSA MIDI 接 口 。 


USB Video Class Gadget 驱 动 : 让 Linux 系 统 成 为 另外 一 个 系统 的 USB 视 频 采 集 源 。 


另外 ，drivers/usb/gadget 源 代码 还 实现 了 一 个 Gadget 文 件 系统 (GadgetFS) ， 可 以 将 Gadget API 接 口 暴露 给 应 用 层 ， 以 便 在 应 用 层 实现 


户 空间 的 驱动 。 


在 USB 设 备 控制 器 驱动 中 ， 我 们 主要 关心 几 个 核心 的 数据 结构 ， 这 些 数据 结构 包括 描述 一 个 USB 设 备 控制 器 的 usb_gadget、UDC 操 作 usb_gad 


usb ep ops 


结构 体 。 UDC 驱动 


代码 清单 16.30 UDC 驱动 的 关键 数据 结构 


lstruct usb_gadget { 


Ex 
SCOBIDHAWN 


23}; 
24 


struct work_struct work; 

/* readonly to gadget driver ye 

const struct usb_gadget_ops *ops; 

struct usb ep *ep0; 

struct list head ep_list; /* of usb ep */ 
enum usb_device_speed speed; š 
enum usb device speed max_speed; 

enum usb device state state; 

const char *name; 

struct device dev; 

unsigned out_epnum; 

unsigned in_epnum; 

unsigned sg_supported:1; 

unsigned is_otg:1; 

unsigned is_a_peripheral:1; 

unsigned b_hnp_enable:1; 

unsigned a_hnp_support:1; 

unsigned a_alt_hnp_support:1; 
unsigned quirk ep out_aligned_size:1; 
unsigned is_selfpowered:1; ` 


25struct usb_ep { 


26 
27 
28 
29 
30 
31: 
32 
33 


void *driver_ data; 
const char *name; 

const struct usb ep ops *ops; 

struct list head ` ep_list; 

unsigned maxpacket :16; 
unsigned maxpacket_limit:16; 
unsigned max_streams:16; 
unsigned mult:2; 

unsigned maxburst :5; 

u8 address; 

const struct usb_endpoint_descriptor *desc; 


const struct usb ss ep comp descriptor *comp_desc; 


4lstruct usb gadget ops { 


42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54}; 


int (*get_frame) (struct usb gadget *); 

int (*wakeup) (struct usb_gadget *); 

int (*set_selfpowered) (struct usb gadget *, int is_selfpowered) ; 

int (*vbus_session) (struct usb gadget *, int is active); 

int (*vbus_draw) (struct usb_gadget *, unsigned mA); 

int (*pullup) (struct usb_gadget *, int is on); 
(* 


int ioctl) (struct usb_gadget *, 
unsigned code, unsigned long param); 
void (*get_config_params) (struct usb dcd config params *); 
int (*udc start) (struct usb gadget *, 
“struct usb gadget driver *); 
int (*udc_stop) (struct usb_gadget *); 


55struct usb ep ops { 


int (*enable) (struct usb_ep *ep, 
const struct usb_endpoint_descriptor *desc) ; 
int (*disable) (struct usb_ep *ep); 


struct usb_request *(*alloc_request) (struct usb_ep *ep, 
gfp_t gfp_flags); 
void (*free_request) (struct usb_ep *ep, struct usb_request *req); 


int (*queue) (struct usb_ep *ep, struct usb_request *req, 
gfp_t gfp_flags); 
int (*dequeue) (struct usb_ep *ep, struct usb_request *req); 


int (*set_halt) (struct usb_ep *ep, int value); 
int (*set_wedge) (struct usb_ep *ep); 


int (*fifo status) (struct usb_ep *ep); 
void (*fifo_flush) (struct usb_ep *ep); 


get_ops、 描 述 一 个 端点 的 usb_ep 以 及 描述 端点 操作 的 


绕 这 些 数据 结构 及 其 成 员 函 数 而 展开 ， 代 码 清单 16.30 列 出 了 这 些 关键 的 数据 结构 ， 它 们 都 定义 于 include/linux/usb/gadget.h 文 件 。 


在 具体 的 UDC 驱动 中 ， 需 要 封装 usb_gadget 和 每 个 端点 usb_ ep， 实现 usb_gadget 的 usb_gadget_ops 并 实现 端点 的 usb ep_ops， 完 成 usb_request。 这 些 事情 都 搞定 后 ， 就 可 以 注册 一 个 UDC， 它 是 
通过 usb add gadget_ udc () APl 来 进行 的 ， 其 原型 为 : 


int usb_add_gadget_udce(struct device *parent, struct usb_gadget *gadget); 


在 注册 UDC 之 前 ， 我 们 需要 先 把 usb_gadget 这 个 结构 体 类 的 ep_list， 即 端点 链表 填充 好 ， 并 填充 好 usb_gadget 的 usb gadget_ops 以 及 每 个 端点 的 usb_ gadget_ops。 


而 Gadg 


代码 清和 


et 的 Function 这 边 ， 则 需要 自己 填充 usb_interface_descriptor、usb_endpoint descriptor， 合 成 一 些 usb_descriptor_header， 并 实现 usb _ function 结构 体 的 成 员 函 数 ，usb_function 结 构 
体 定义 于 include/linux/usb/composite.h 中 ， 其 形式 如 代码 清单 16.31 所 示 。 


£16.31 ”usb_function 结 构 体 


lstruct usb function { 

const char *name; 

struct usb_gadget_strings **strings; 

struct usb ) descriptor | header **fs descriptors; 
struct usb descriptor header **hs descriptors; 
struct usb_descriptor_header **ss descriptors; 


struct usb_configuration *config; 


n 
SCCBIDUOAWN 


struct usb_os_desc_table 
11 unsigned 


*os_desc_table; 
os_desc_n; 


13 /* configuration management: bind/unbind */ 


14 int (*bind) (struct usb_configuration *, 
15 struct usb function *); 

16 void (*unbind) (struct usb_configuration *, 
17 struct usb function *); 

18 void (*free func) (struct usb function *f); 
19 struct module *mod; = 

20 


21 /* runtime state management */ 


22 int (*set_alt) (struct usb_function *, 

23 unsigned interface, unsigned alt); 
24 int (*get_alt) (struct usb function *, 

25 unsigned interface) ; 

26 void (*disable) (struct usb function *); 

27. int (*setup) (struct usb_function *, 


28 const struct usb _ctrlrequest *); 


29 void (*suspend) (struct usb_function rya 
30 void (*resume) (struct usb_function *); 
31 


32 /* USB 3.0 additions */ 

33 int (*get_status) (struct usb function *); 
34 int (*func_suspend) (struct usb function *, 
35 ~ u8 suspend opt); ` 

36 /* private: */ 

37 /* internals */ 

38 struct list_head list; 

39 DECLARE BITMAP (endpoints, 32); 

40 const struct usb_function_instance *fi; 

41}; 


第 4 行 的 fs_descriptors 是 全 速 和 低速 的 描述 符 表 ; 第 5 行 的 hs_descriptors 是 高 速 描述 符 表 ; ss_descriptors 是 超 高 速 描述 符 。bind () 完成 在 Gadget 注 册 时 获取 MO 缓冲 、 端 点 等 资源 。 
在 usb _ function 的 成 员 函 数 以 及 各 种 描述 符 准 备 好 后 ， 在 内 核 通过 usb function_register () APl 来 完成 Gadget Function 的 注册 ， 该 ApPI 的 原型 为 : 
int usb_function register (struct usb_function_driver *newf) 7 
在 Gadget 驱 动 中 ， 用 usb_request 结 构 体 来 描述 一 次 传输 请 求 ， 这 个 结构 体 的 地 位 类 似 于 USB 主 机 侧 的 URB。usb_request 结 构 体 的 定义 如 代码 清单 16.32 所 示 。 
代码 清单 16.32 ”usb_request 结 构 体 
lstruct usb_request { 
2 void *buf; /* Buffer used for data */ 
3 unsigned length; 
4 dma_addr_t dma; /* DMA address corresponding to 'buf' */ 
5 
6 struct scatterlist *sg; /* a scatterlist for SG-capable controllers */ 
7 unsigned num_sgs; 
8 unsigned num_mapped_sgs; 
9 
10 unsigned stream_id:16; 
11 unsigned no_interrupt:1; 
12 unsigned zero:1; 
13. unsigned short_not_ok:1; 
14 
15 void (*complete) (struct usb_ep *ep, 
16 struct usb_request *req); /* Function called when request completes */ 
17 void *context; 
18 struct list_head list; 
19 
20 int status; 
21 unsigned actual; 
22}; 
在 include/linux/usb/gadget.h 文 件 中 ， 还 封装 了 一 些 常用 的 AP1， 以 供 Gadget Function 驱 动 调用 ， 从 而 便于 它们 操作 端点 ， 如 下 所 示 。 
(1) 使 能 和 禁止 端点 
static inline int usb ep enable(struct usb ep *ep); 
static inline int usb_ep disable(struct usb_ep *ep); 
它们 分 别 调用 了 “ep->ops->enable (ep, desc) ; " #] “ep->ops->disable (ep) 
(2) 分 配 和 释放 usb_request 
struct usb request *alloc_ep_req(struct usb ep *ep, int len, int default_len); 
static inline struct usb_request *usb_ep_alloc_request (struct usb_ep *ep, 
gfp_t gfp_flags); 
static inline void usb ep free request (struct usb_ep *ep, 
struct usb_request *req); 
usb_ep_alloc_request () 和 usb ep free_request () 分 别 调用 了 “ep->ops->alloc request (ep, gfp_flags) ; " #1 “ep->ops->free_request (ep, req) ; ”， 以 用 于 分 配 和 释放 一 个 依附 于 


某 端 点 的 usb_request， 而 alloc_ep_req () WARS Xtusb_ep_alloc_request (ep, GFP_ATOMIC) 的 调用 ， 同 时 自动 申请 了 usb_request 的 缓冲 器 的 内 存 。 


(3) 提交 和 取消 usb_request 


static inline int usb ep queue(struct usb_ep *ep, 
struct usb_request *req, gfp_t gfp_flags); 


static inline int usb_ep dequeue (struct usb_ep *ep, struct usb_request *req) ; 


它们 分 别 调 
求 对 应 的 completion () 函数 会 被 调用 。 


“ep->ops->queue (ep, req, gfp_flags) 


(4) 端点 FIFO 管 理 


static inline int usb ep fifo_status(struct usb_ep *ep); 
static inline void usb ep fifo flush(struct usb ep *ep); 


; " #0 “ep->ops->dequeue (ep, req) 


" , usb ep queueRaxsiFUDCsepkusb request ( 读 写 缓冲 ) 


， 当 请 求 被 完成 后 ， 与 该 请 


前 者 调用 “ep->ops->fifo_status (ep) ”返回 目前 FIFO 中 的 字 节 数 ， 后 者 调用 “ep->ops->fifo flush (ep) ”以 冲刷 掉 FIFO 中 的 数据 。 


(5) 端点 自动 配置 


struct usb ep *usb_ep_autoconfig( 
struct usb_gadget *gadget, 
struct usb_endpoint_descriptor *desc); 


根据 端点 描述 符 及 控制 器 端点 情况 ， 分 配 一 个 合适 的 端点 。 


16.5 USB OTG 驱 动 


USB OTG 标 准 在 完全 兼容 USB 2.0 标 准 的 基础 上 ， 它 允许 设备 既 可 作为 主机 ， 也 可 作为 外 设 操 作 ，OTG 新 增 了 主机 通令 协议 (HNP) 和 对 话 请 求 协议 (SRP) 。 


在 OTG 中 ， 初 始 主机 设备 称 为 A 设 备 ， 外 设 称 为 B 设 备 。 可 用 电缆 的 连接 方式 来 决定 初始 角色 。 两 用 设备 使 用 新 型 Mini-AB 插 座 ， 从 而 使 Mini-A 插 头 、Mini-B 插 头 和 Mini-AB 插 座 增 添 了 第 5 个 引 肢 
(ID) ， 以 用 于 识别 不 同 的 电缆 端点 。Mini-A 播 头 中 的 ID 引 脚 接地 ，Mini-B 插 头 中 的 1D 引 脚 浮 空 。 当 OTG 设 备 检测 到 接地 的 ID 引 脚 时 ， 表 示 默 认 的 是 A 设 备 (主机 ) ， 而 检测 到 ID 引 脚 浮 空 的 设备 则 认为 是 
B 设 备 (外 设 ) 。 系 统一 旦 连接 后 ，OTG 的 角色 还 可 以 更 换 ， 以 采用 新 的 HNP 协 议 。 而 SRP 人 允许 B 设 备 请 求 A 设备 打开 VBUS 电 源 并 启动 一 次 对 话 。 一 次 OTG 对 话 可 通过 A 设备 提供 VBUS 电 源 的 时 间 来 确定 。 


自 Linux 2.6.9 开 始 ，OTG 相 关 源 代 码 已 经 被 包含 在 内 核 中 了 ， 新 增 的 主要 内 容 包 括 : 


(1) UDC 驱动 端 添 加 的 OTG 相 关 属 性 和 函数 


struct usb_gadget { 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


unsigned is otg:1; 

unsigned is_a_peripheral:1; 
unsigned b_hnp_enable:1; 
unsigned a hnp support:1; 
unsigned a alt hnp support:1; 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
i 
int usb_gadget_vbus connect (struct usb_gadget *gadget) ; 
int usb gadget vbus disconnect (struct usb gadget *gadget) ; 
int usb_gadget_vbus_draw(struct usb_gadget *gadget, unsigned mA) ; 
/* 控制 USB D+ 的 上 拉 */ 
int usb gadget connect (struct usb gadget *gadget) ; 
int usb gadget disconnect (struct usb_gadget *gadget) ; 
/* ZiXRMBUSB host， 它 也 会 尝试 SRP 会 话 */ 
int usb gadget wakeup (struct usb gadget *gadget); 


(2) Gadget 驱 动 端 添加 的 OTG 相 关 属 性 和 函数 


如 果 gadget->is_otg 字 段 为 真 ， 则 增加 一 个 OTG 描 述 符 ; 通过 printk () 、LED 等 方式 报告 HNP 可 用 ; 当 挂 起 开始 时 ， 通 过 用 户 界 面 报告 HNP 切 换 开 始 (B-Peripheral 到 B-Host 或 A-Peripheral 到 A- 
Host) 。 


(3) 主机 侧 添加 的 OTG 相 关 属 性 和 函数 


在 USB 核 心中 新 增 了 关于 OTG 设 备 枚 举 的 信息 : 


struct usb bus { 
http: /7www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
u8 otg port; /* 0, or index of OTG/HNP port */ 
unsigned is b host:1; /* true during some HNP roleswitches */ 
unsigned b hnp enable:1; /* OTG: did A-Host enable HNP */ 
http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
li 


为 了 实现 HNP 需 要 的 挂 起 /恢复 ， 新 增 如 下 通用 接 


int usb_suspend_device(struct usb_device *dev, u32 state); 
int usb_resume_device (struct usb_device *dev) ; 


(4) 新 增 OTG 功 能 切换 和 协议 的 描述 结构 体 usb_otg 


struct usb otg { 
u8 ` default a; 
struct phy *phy; 
/* old usb_phy interface */ 
struct usb phy *usb_phy; 
struct usb_bus *host; 
struct usb gadget *gadget; 
enum usb otg state state; 
/* bind/unbind the host controller */ 
int (*set_host) (struct usb_otg *otg, struct usb bus *host); 
/* bind/unbind the peripheral controller */ T 
int (*set_peripheral) (struct usb_otg *otg, 
struct usb_gadget *gadget); 
/* effective for A-peripheral, ignored for B devices */ 
int (*set_vbus) (struct usb otg *otg, bool enabled); 
/* for B devices only: start session with A-Host */ 
int (*start_srp) (struct usb otg *otg); 
/* start or continue HNP role switch */ 
int (*start_hnp) (struct usb_otg *otg); 
li 


usb_otg 的 代码 一 般 在 USB 的 phy 端 实现 ， 目 前 ， 从 内 核 的 drivers/usb/musb/musb_gadget.c、drivers/usb/phy/phy-twl6030-usb.c、drivers/usb/phy/phy-isp1301-omap.c、 
drivers/usb/phy/phy-fsl-usb.c 和 drivers/usb/musb/musb_gadget.c 等 驱动 中 可 以 找到 类 似 的 例子 。 


16.6 ”总结 


USB 驱 动 分 为 USB 主 机 驱动 和 USB 设 备 驱动 ， 如 果 系统 的 USB 主 机 控制 器 符合 OHCI 等 标准 ， 那 主机 驱动 的 绝 大 部 分 工作 都 可 以 沿用 通用 的 代码 。 


对 于 一 个 USB 设 备 而 言 ， 它 至 少 具备 两 重 身份 : 首先 它 是 “USB” 的 ， 其 次 它 是 “自己 ”的 。USB 设 备 是 “USB” 的 ， 指 它 挂 接 在 USB 总 线 上 ， 其 必须 完成 usb_driver 的 初始 化 和 注册 ; USB 设 备 是 “ 自 
己 ” 的 ， 意 味 着 本 身 可 能 是 一 个 字符 设备 、tty 设 备 、 网 络 设备 等 ， 因 此 ， 在 USB 设 备 驱动 中 也 必须 实现 符合 相应 框架 的 代码 。 


USB 设 备 驱动 的 自身 设备 驱动 部 分 的 读 写 等 操作 流程 有 其 特殊 性 ， 即 以 URB 来 贯穿 始终 ， 一 个 URB 的 生命 周期 通常 包含 创建 、 初 始 化 、 提 交 和 被 USB 核 心 及 USB 主 机 传递 、 完 成 后 回调 函数 被 调用 的 过 
程 ， 当 然 ， 在 URB 被 驱动 提交 后 ， 也 可 以 被 取消 。 


在 UDC 和 Gadget Function 侧 ，UDC 关 心底 层 的 硬件 操作 ， 而 Function 驱 动 则 只 是 利用 通用 的 AP1， 并 通过 usb_request 与 底层 UDC 驱动 交互 。 


第 17 章 12C、SPI、USB 驱 动 架构 类 比 


本 章 导读 


本 章 类 比 !2?C、SPI、USB 的 结构 ， 从 而 进一步 帮助 读者 理解 本 书 第 2 章 的 内 容 ， 也 进一步 实证 Linux 驱 动 万 变 不 离 其 宗 的 道理 。 


17.1 12C、SPI、USB 驱 动 架构 


根据 图 12.4，Linux 倾 向 于 将 主机 端的 驱动 与 外 设 端 的 驱动 分 离 ， 而 通过 一 个 核心 层 将 某 种 总 线 的 协议 进行 抽象 ， 外 设 端 的 驱动 调用 核心 层 API 间 接 过 渡 到 对 主机 驱动 传输 函数 的 调用 。 对 于 |2C、SPI 这 
类 不 具备 热 插 拔 能 力 的 总 线 而 言 ， 一 般 在 arch/arm/mach-xxx 或 者 arch/arm/boot/dts 中 会 有 相应 的 板 级 描述 信息 ， 描 述 外 设 与 主机 的 连接 情况 。 


表 17.1 I2C、SPI、USB 了 驱动 架构 的 类 比 


a OSs 
ag ESE or 
2 7 aU eR eT 


pa Ms ye Mi aS ital pa ze i 
| 主机 的 枚 举 方法 ， Pe 器 挂 接 的 总 线 | H SPERRER] H USB 控制 器 挂 接 的 总 
决定 


+ = A 
a EETA URE 


股 是 platform ) 线 决定 (一 般 是 platform) | 线 决 定 (一 般 是 platform ) 
spi_sync() 


spi_async() 
+ [ETE aa 
描述 外 设 的 数据 结构 i2c_client spi_device usb_device 


"EE TAARA 


: PC 控制 器 3 ~、 添 | 器 节 R 
在 IC Edie ak PRI] fe SPI PERAR Pe 总 线 具 备 执 插 拔 能 力 


传输 API i2c_transfer() usb_submit_urb() 


设备 树 模式 a 人 
子 节 点 加 子 节点 


对 于 USB、PCI 等 总 线 而 言 ， 由 于 它们 具备 热 插 拔 能 力 ， 所 以 实际 上 不 存在 类 似 |*C、SPI 这 样 的 板 级 描述 信息 。 换 名 话说， 即便 是 有 这 类 信息 ， 其 实 也 没有 什么 用 ， 因 为 如 果 写 了 板子 上 有 个 U 盘 ， 但 实 
际 上 没有 ， 其 实 反而 是 制造 了 麻烦 ; 相反 ， 如 果 没有 写 ，U 盘 一 旦 插入 ，Linux USB 子 系统 会 自动 探测 到 一 个 U 盘 。 


同时 我 们 注意 到 ，I2C、SPI、USB 控 制 器 虽然 给 别人 提供 了 总 线 ， 但 是 其 实 自己 也 是 由 它 自身 依附 的 总 线 枚 举 出 来 的 。 比 如 ， 对 于 SoC 而 言 ， 这 些 控制 器 一 般 是 直接 集成 在 芯片 内 部 ， 通 过 内 存 访问 指 
令 来 访问 的 ， 因 此 它们 自身 是 通过 platform_driver、platform_device 这 种 模型 枚 举 进来 的 。 


17.2 ”12C 主 机 和 外 设 眼 里 的 Linux 世 界 


12C 控 制 器 所 在 驱动 的 platform_driver 与 arch/arm/mach-xxx 中 的 platform_device (或 者 设备 树 中 的 节点 ) 通过 platform 总 线 的 match () 函数 匹配 导致 platform_driver.probe () 执行 ， 从 而 完成 
12C 控 制 器 的 注册 ; 而 I 2?C 上 面 挂 的 触摸 屏 依附 的 i2c_driver 与 arch/arm/mach-xxx 中 的 i2c_board_info 指 向 的 设备 (或 者 设备 树 中 的 节点 ) 通过 12C 总 线 的 match () 函数 匹配 导致 2c_driver.probe () 执 
行 ， 从 而 使 触摸 屏 展开 。 


图 17.1 虚 线 上 方 部 分 是 i2c_adapater 眼 里 的 Linux 世 界 ; 下 方 部 分 是 i2c client 眼 里 的 Linux 世 界 。 其 实 ，Linux 中 的 每 一 个 设备 通过 它 依附 的 总 线 被 枚 举 出 来 ， 尽 管 它 自身 可 能 给 别人 提供 总 线 。 


本 章 导 读 


platform 总 线 


platform LZR 
match() py BX 


platform. driver.pr 
obe0 执 行 


PC 总 线 
match() pÁ% 


i2c client RA 
12c board info 


或 dt) 


(2) i2c_ driver 


17.1 IC 主机 和 外 设 眼 里 的 Linux 世 界 


第 18 章 ARM Linux 设 备 树 


本 章 将 介绍 Linux 设 备 树 (Device Tree) 的 起 源 、 结 构 和 因为 设备 树 而 引起 的 驱动 和 BSP 变更 。 


18.1 节 阐明 了 ARM Linux 为 什么 要 采用 设备 树 。 


18.2 节 详细 剖析 了 设备 树 的 结构 、 节 点 和 属性 ， 设 备 树 的 编译 方法 以 及 如 何 用 设备 树 来 描述 板 上 的 设备 、 设 备 的 地 址 、 设 备 的 中 断 号 、 时 钟 等 信息 。 


18.3 节 讲解 了 采用 设备 树 后 ，BSP 和 驱动 的 代码 需要 怎么 改 ， 哪 些 地 方 变 了 。 


18.4 节 补充 了 一 些 与 设备 树 相关 的 API 定 义 以 及 


法 。 


本 章 内 容 是 步 入 Linux 3.x 时 代 后 ， 嵌 入 式 Linux 工 程 师 必 备 的 知识 体系 。 


18.1 _ ARM 设备 树 起 源 


在 过 去 的 ARM Linux 中 ，archyarmyVplat-xxx 和 arch/arm/mach-xxx 中 充斥 着 大 量 的 垃圾 代码 ， 很 多 代码 只 是 在 描述 板 级 细节 ， 而 这 些 板 级 细节 对 了 


resource、i2c_board info、spi_board_info 以 及 各 种 硬件 的 platform_data。 读 者 若 有 兴趣 ， 可 以 统计 一 下 常见 的 S3c2410、s3c6410 等 板 级 目录 ， 代 码 量 在 数 万 行 。 


设备 树 是 一 种 描述 硬件 的 数据 结构 ， 它 起 源 于 OpenFirmware (OF) 。 在 Linux 2.6 中 ，ARM 架 构 的 板 极 硬件 细节 过 多 地 被 硬 编码 在 arch/arm/plat-xxx 和 arch/arm/mach-xxx 中 ， 采 用 设备 树 后 , 许 


多 硬件 的 细节 可 以 直接 通过 它 传递 给 Linux， 而 不 再 需要 在 内 核 中 进行 大 量 的 宛 余 编码 。 


FF 内核 来 讲 ， 不 过 是 垃圾 ， 如 板 上 的 platform 设 备 、 


设备 树 由 一 系列 被 命名 的 节点 (Node) 和 属性 (Property) 组 成 ， 而 节点 本 身 可 包含 子 节点 。 所 谓 属性 ， 其 实 就 是 成 对 出 现 的 名 称 和 值 。 在 设备 树 中 ， 可 描述 的 信息 包括 (原先 这 些 信息 大 多 被 硬 编 
码 在 内 核 中 ) : 


“CPU 的 数量 和 类 别 。 

+ 内 存 基 地 址 和 大 小 。 

-总线 和 桥 。 

+ 外 设 连接 。 

“中断 控制 器 和 中 断 使 用 情况 。 


“GPIO 控 制 器 和 GPIO 使 用 情况 。 


“ 时钟 控制 器 和 时 钟 使 用 情况 。 


它 基本 上 就 是 画 一 棵 电路 板 上 CPU、 总 线 、 设 备 组 成 的 树 ，Bootloader 会 将 这 棵 树 传递 给 内 核 ， 然 后 内 核 可 以 识别 这 棵 树 ， 并 根据 它 展开 出 Linux 内 核 中 的 platform_device、i2c_client、spi_device 等 
设备 ， 而 这 些 设备 用 到 的 内 存 、IRQ 等 资源 ， 也 被 传递 给 了 内 核 ， 内 核 会 将 这 些 资源 绑 定 给 展开 的 相应 的 设备 。 


18.2 ”设备 树 的 组 成 和 结构 


整个 设备 树 牵 涉 面 比较 广 ， 即 增加 了 新 的 用 于 描述 设备 硬件 信息 的 文本 格式 ， 又 增加 了 编译 这 个 文本 的 工具 ， 同 时 Bootloader 也 需要 支持 将 编译 后 的 设备 树 传递 给 Linux 内 核 。 


18.3 ”由 设备 树 引发 的 BSP 和 驱动 变更 


有 了 设备 树 后 ， 不 再 需要 大 量 的 板 级 信息 ， 壁 如 过 去 经 常 在 arch/arm/plat-xxx 和 arch/arm/mach-xxx 中 实施 如 下 事情 。 


1. 注 册 platform_device， 绑 定 resource， 即 内 存 、1RQ 等 板 级 信息 


通过 设备 树 后 ， 形 如 : 


static struct resource xxx resources[] = { 


[0] = { 

start =>, 

.end Se, 

. flags = IORESOURCE_MEM, 
}, 
(1] = { 

eStart = very 

.end Sey, 

. flags = IORESOURCE_IRQ, 


ti 


static struct platform_device xxx_device = { 


.name = "xxx", 
id =-l, 
dev ={ 
-platform_data = &xxx_data, 
tr 
. resource = xxx_resources, 
.num resources = ARRAY_SIZE (xxx_resources) , 


之 类 的 platform_device 代 码 都 不 再 需要 ， 其 中 platform_device 会 由 内 核 自动 展开 。 而 这 些 resource 实 际 来 源 于 .dts 中 设备 节点 的 reg、interrupts 属 性 。 


典型 的 ， 大 多 数 总 线 都 与 “simple_bus” 兼 容 ， 而 在 与 SoC 对 应 的 设备 的 .init_machine 成 员 函 数 中 ， 调 用 of_ platform_bus_probe (NULL, xxx_of_bus ids, NULL) ; 即 可 自动 展开 所 有 的 


platform_device, 


2. 注 册 i2c_board_info， 指 定 IRQ 等 板 级 信息 


形 如 : 


static struct i2c board info _ initdata afeb9260_i2c devices[] = { 
12C_BOARD_INFO("tlv320aic23", Oxla), 
12C_BOARD_INFO("fm3130", 0x68), 


12C_BOARD_INFO("24c64", 0x50), 


之 类 的 i2c_board info 代 码 目前 不 再 需要 出 现 ， 现 在 只 需要 把 tlv320aic23、fm3130、24c64 这 些 设备 节点 填充 作为 相应 的 |C 控 制 器 节点 的 子 节点 即 可 ， 类 似 于 前 面 的 代码 : 


i2c@1,0 { 
compatible = "acme,al234-i2c-bus"; 


rtc@58 { 
compatible = "maxim, ds1338"; 
reg = <58>; 
interrupts = < 7 3 >; 


ti 


设备 树 中 的 |2C 客 户 端 会 通过 在 |2C host 驱 动 的 probe () 函数 中 调用 的 of i2c register devices (&i2c_dev->adapter) ; 被 自动 展开 。 


3. 注 册 spi_board_info， 指 定 IRQ 等 板 级 信息 


形 如 : 


之 类 的 spi_board_info 代 码 目前 不 再 需要 册 


static struct spi board info afeb9260_spi_devices[] = { 
/* DataFlash chip */ 
.modalias = "mtd dataflash", 
.chip select z 
.max_speed hz 
.bus num ~ 


1, 
15 * 1000 * 1000, 
0, 


时 候 ， 会 自动 展开 依附 于 它 的 从 机 ，spear1310-evb.dts 中 的 st，m25p80SPI 接 口 的 NOR Flash 节 点 如 下 : 


spi0: spi@e0100000 { 


status = "okay"; 
num-cs = <3>; 
m25p80@1 { 


compatible = "st,m25p80"; 


hi 


现 ， 与 12C 类 似 ， 现 在 只 需要 把 mtd _dataflash 之 类 的 节点 作为 SP 控制 器 的 子 节点 即 可 ，SPI host 驱 动 的 probe () 函数 通过 spi_register master () 注册 主机 的 


4. 多 个 针对 不 同 电路 板 的 设备 ， 以 及 相关 的 


yal 


回 


在 过 去 ，ARM Linux 针 对 不 同 的 电路 板 会 建立 由 MACHINE_START 和 MACHINE_END 包 人 
于 表明 相关 的 设备 与 .dts 中 根 节点 的 兼容 属性 的 兼容 关系 。 


到 


的 设备 ， 引 入 设备 树 之 后 ，MACHINE_START 变 更 为 DT_MACHINE_START， 其 中 含有 一 个 .dt compat 成 


这 样 可 以 显著 改善 代码 的 结构 并 减少 元 余 的 代码 ， 在 不 支持 设备 树 的 情况 下 ， 光 是 一 个 S3C24xx 就 存在 多 个 板 文件 ， 壁 如 mach-amlm5900.c、mach-gta02.c、mach-smdk2410.c、mach- 
qt2410.c、mach-rx3715.c 等 ， 其 累计 的 代码 量 是 相当 大 的 ， 板 级 信息 都 用 C 语 言 来 实现 。 而 采用 设备 树 后 ， 我 们 可 以 对 多 个 SoC 和 板子 使 用 同一 个 DT_MACHINE 和 板 文件 ， 板 子 和 板子 之 间 的 差异 更 多 只 
是 通过 不 同 的 .dts 文 件 来 体现 。 


5. 设 备 与 驱动 的 匹配 方式 


使 用 设备 树 后 ， 驱 动 需要 与 在 .dts 中 描述 的 设备 节点 进行 匹配 ， 从 而 使 驱动 的 probe () 函数 执行 。 新 的 驱动 、 设 备 的 匹配 变 成 了 设备 树 节点 的 兼容 属性 和 设备 驱动 中 的 OF 


6 .设备 的 平台 数据 属性 化 


据 。 


匹配 表 的 


在 Linux 2.6 下 ， 了 驱动 习惯 自 定义 platform_data， 在 arch/arm/mach-xxx 注 册 platform_device、i2c_board_info、spi_board_info 等 的 时 候 绑 定 platform_data， 而 后 驱动 通过 标准 API 获 取 平 台数 


壁 如 ， 在 arch/arm/mach-at91/board-sam9263ek.c 下 用 如 下 代码 注册 gpio_keys 设 备 ， 它 通过 gpio_keys_platform_data 结 构 体 来 定义 platform_data。 
static struct gpio keys button ek_buttons[] = { 
{  /* BPL, “leftclic" */ 
.code = BIN LEFT, 
.gpio AT9I_PIN_PC5, 


-active_low 1; 
.desc "left click", 
.wakeup 1, 


b 
{ /* BP2, "rightclic" */ 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
} 
li 
static struct gpio_keys platform_data ek_button_data = { 
buttons ek buttons, 
.nbuttons ARRAY_SIZE(ek_buttons), 


static struct platform_device ek_button_device = { 


.name = "gpio-keys", 
PT = -1, 

.num resources = 0, 

„dev = 


-platform_data= &ek_button_data, 
} 
i 


设备 驱动 drivers/input/keyboard/gpio_keys.c 则 通过 如 下 简单 方法 取得 这 个 信息 。 


static int gpio keys probe(struct platform device *pdev) 


struct device *dev = &pdev->dev; 
const struct gpio keys platform data *pdata = dev_get_platdata (dev) ; 

http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
} 


在 转移 到 设备 树 后 ，platform_data 便 不 再 喜欢 放 在 arch/arm/mach-xxx 中 了 ， 它 需要 从 设备 树 的 属性 中 获取 ， 比 如 一 个 电路 板 上 有 gpio_keys， 则 只 需要 在 设备 树 中 添加 类 似 
arch/arm/boot/dts/exynos4210-origen.dts 中 的 如 代码 清单 18.17 所 示 的 信息 则 可 。 


代码 清单 18.17 ”在 设备 树 中 添加 GPIO 按 键 信息 


lgpio keys { 
2 compatible = "gpio-keys"; 


3 #address-cells = <1>; 

4 #size-cells = <0>; 

5 

6 up { 

7 label = "Up"; 

8 gpios = <égpx2 0 1>; 

9 linux, code = <KEY_UP>; 
10 gpio-key, wakeup; 

11 }; 

12 

13 down { 

14 label = "Down"; 

15 gpios = <agpx2 1 1>; 

16 linux, code = <KEY_DOWN>; 
17 gpio-key, wakeup; 

18 he 

19 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
20}; 


而 drivers/input/keyboard/gpio_keys.c 则 通过 以 of 开头 的 读 属 性 的 APl 来 读 取 这 些 信息 ， 并 组 织 出 gpio_keys_platform_data 结 构 体 ， 如 代码 清单 18.18 所 示 。 


代码 清单 18.18 在 GPIO 按 键 驱动 中 获取 .dts 中 的 键 描述 


1static struct gpio keys platform_data * 
2gpio_keys_get_devtree_pdata(struct device *dev) 


3{ 

4 struct device_node *node, *pp; 

5 struct gpio _keys_Platform data *pdata; 

6 struct gpio_keys button *button; 

i int error; 

8 int nbuttons; 

9 int i; 

10 

11 node = dev->of_node; 

12 if (!node) 7 

13 return ERR_PTR (-ENODEV) ; 

14 

15 nbuttons = of get child count (node) ; 

16 if (nbuttons == 0) 

£7 return ERR_PTR (-ENODEV) ; 

18 

19 pdata = devm kzalloc (dev, 

20 sizeof (*pdata) + nbuttons * sizeof (*button), 
21 GFP_KERNEL) ; 

22 if (!pdata) H 

23 return ERR_PTR (-ENOMEM) ; 

24 

25 pdata->buttons = (struct gpio_keys_button *) (pdata + 1); 

26 pdata->nbuttons = nbuttons; ` < 

27 

28 pdata->rep = !!of get property (node, "autorepeat", NULL); 

29 

30 i= 0; 

31 for_each_child_of_node(node, pp) { 

32 int gpio; 

33 enum of gpio flags flags; 

34 

35 if (!of_find_property(pp, "gpios", NULL)) { 

36 pdata->nbuttons--; 

37 dev_warn (dev, "Found button without gpios\n"); 
38 continue; 

39 } 

40 

41 gpio = of ~ . gpio flags(pp, 0, &flags); 

42 if (gpio < 0) { 

43 error = gpio; 

44 if (error != -EPROBE_DEFER) 

45 dev_err (dev, 

46 T "Failed to get gpio flags, error: %d\n", 
47 error); 

48 return ERR PTR(error) ; 

49 } ~ 

50 

SI button = &pdata->buttons [i++]; 

52 

53 button->gpio = gpio; 

54 button->active_low = flags & OF_GPIO ACTIVE LOW; 

55 

56 if (of_property_read_u32 (pp, "linux,code", &button->code)) { 
57 dev_err(dev, "Button without keycode: 0x%x\n", 
58 = button->gpio) ; 

59 return ERR PTR(-EINVAL) ; 

60 } ~ 

61 

62 button->desc = of get property (pp, "label", NULL); 
63 

64 if (of_property_read_u32 (pp, "linux, input-type", &button->type) ) 
65 button->type = EV_KEY; 

66 

67 button->wakeup = !!of get property (pp, "gpio-key,wakeup", NULL); 
68 

69 if (of_property_read_u32 (pp, "debounce-interval", 

70 &button->debounce_interval) ) 
71 button->debounce_interval = 5; 

72 } ~ 

73 

74 if (pdata->nbuttons == 0) 

15 return ERR_PTR(-EINVAL) ; 

76 

77 return pdata; 

78} 


上 述 代码 通过 第 31 行 的 for_each_child_of_node () 遍历 gpio_keys 节 点 下 的 所 有 子 节点 ， 并 通过 of get_gpio_flags () . of_property read_u32 () 等 API 读 取出 来 与 各 个 子 节点 对 应 的 GPIO、 与 每 
个 GPIO 对 应 的 键盘 键 值 等 。 


18.4 常用 的 OF API 


除了 前 文 介绍 的 of _ machine is compatible () 、of device is compatible () 等 常用 函数 以 外 ， 在 Linux 的 BSP 和 驱动 代码 中 ， 经 常会 使 用 到 一 些 Linux 中 其 他 设备 树 的 AP1， 这 些 API 通 常 被 冠 以 of _ 
前 缀 ， 它 们 的 实现 代码 位 于 内 核 的 drivers/of 目 录 下 。 


这 些 常用 的 API 包 括 下 面 内容 。 


1. 寻 找 节 点 


struct device_node *of find compatible_node (struct device_node *from, 
const char *type, const char *compatible) ; 


根据 兼容 属性 ， 获 得 设备 节点 。 饥 历 设 备 树 中 的 设备 节点 ， 看 看 哪个 节点 的 类 型 、 兼 容 属 性 与 本 函数 的 输入 参数 匹配 ， 在 大 多 数 情况 下 ，from、type 为 NULL， 则 表示 遍历 了 所 有 节点 。 


2. 读 取 属 性 


int of _property_ read_u8_array(const struct device_node *np, 

const char *propname, u8 *out _values, size_t sz); 

int of -property read u16 array (const struct device_node *np, 
const char *propname, ul6 *out _ values, size_t sz); 

int of _property_ read_u32 array (const struct device » node *np, 
const char *propname, u32 *out _ values, size_t sz); 

int of property read u64 (const struct device node *np, const char 
*propname, u64 *out_value) ; 


读 取 设备 节点 np 的 属性 名 ， 为 propname， 属 性 类 型 为 8、16、32、64 位 整 型 数组 。 对 于 32 位 处 理 器 来 讲 ， 最 常用 的 是 of property read_u32_array () . 


如 在 arch/arm/mm/cache-l2x0.c 中 ， 通 过 如 下 语句 可 读 取 L2cache 的 "arm，data-latency" 属 性 : 

of property read_u32_array(np, "arm,data-latency", 

data, ARRAY SIZE (data)); 

在 arch/arm/boot/dts/vexpress-v2p-ca9.dts 中 ， 对 应 的 含有 "arm，data-latency" 属 性 的 L2cache 节 点 如 下 : 


L2: cache-controller@le00a000 { 
compatible "arm, p1310-cache"; 
reg = <0xle00a000 0x1000>; 
interrupts = <0 43 4>; 
cache-level = <2>; 

arm, data-latency = <1 1 1>; 
arm, tag-latency = <1 1 1>; 

} 


在 有 些 情况 下 ， 整 型 属性 的 长 度 可 能 为 1， 于 是 内 核 为 了 方便 调 


者 ， 又 在 上 述 API 的 基础 上 封装 出 了 更 加 简单 的 读 单 一 整形 


属性 的 APl， 它 们 为 int of _property_read_u8 () 、 


of_property read_u16 () 等 ， 实 现 于 include/linux/of.h 中 ， 如 代码 清单 18.19 所 示 。 
代码 清单 18.19 ”设备 树 中 整 型 属性 的 读 取 API 
lstatic inline int of property read u8 (const struct device_node *np, 
2 const char *propname, 
3 u8 *out value) 
4{ 
5 return of property read u8 array(np, propname, out_value, 1); 
6} 
7 


8static inline int of_property_read_ul6(const struct device_node *np, 


9 const char *propname, 

10 ul6 *out_value) 

11{ 

12 return of_property_read_ul6_array(np, propname, out_value, 1); 
13} 

14 


15static inline int of property read_u32(const struct device_node *np, 


16 const char *propname, 

T u32 *out_value) 

18{ 

19 return of property_read u32_array (np, propname, out_value, 1); 
20} 

除了 整 型 属性 外 ， 字 符 串 属性 也 比较 常用 ， 其 对 应 的 AP 包括 : 


int of_property_read_string(struct device _ node *np, const char 

*propname, const char **out_string) ; z 

int of property read string_index (struct device_node *np, const char 
*propname, int index, const char **output); 


itr 


前 者 读 取 字符 


®'"clock-output-names" +4 


属性 ， 后 者 读 取 字符 


数组 属性 中 的 第 index 个 字符 


Tir 


A 


= 
A 


代码 清单 18.20 ”在 驱动 中 读 取 第 index 个 字符 串 的 例子 


B. Wdrivers/clk/clk.ctAAYof_clk_get_parent_name () 函数 就 通过 of property_read string_index () 遍历 clkspec 节 点 的 所 


lconst char *of_clk_get_parent_name(struct device_node *np, int index) 


2{ 

3 struct of phandle args clkspec; 

4 const char *clk_name; 

5 int rc; 

6 

7 if (index < 0) 

8 return NULL; 

9 

10 rc = of parse phandle with_args(np, "clocks", "#clock-cells", index, 
11 &clkspec) ; 

12 if (rc) 

13 return NULL; 

14 

15 if (of_property_read_string_index(clkspec.np, "clock-output-names", 
16 clkspec.args_count clkspec.args[0] : 0, 
17 &clk name) < 0) 

18 clk_name = clkspec.np->name; ` 

19 

20 of_node_put (clkspec.np) ; 

21 return clk_name; 

22} ~ 

23EXPORT_SYMBOL_GPL(of_clk_get_parent_name) ; 

除 整 型 、 字 符 串 以 外 的 最 常用 属性 类 型 就 是 布尔 型 ， 其 对 应 的 API 很 简单 ， 具 体 如 下 
static inline bool of property read bool (const struct device_node *np, 

const char *propname) ; 

如 果 设备 节点 np 含有 propname 属 性 ， 则 返回 true， 否 则 返回 false。 一 般 用 于 检查 空 属性 是 否 存在 。 


3. 内 存 映射 


void _ iomem *of iomap (struct device_node *node, int index); 


L=: 


{TIS 


上 述 API 可 以 直接 通过 设备 节点 


进 


备 内 存 区 间 的 ioremap () ，index 是 内 存 段 的 索引 。 若 设备 节点 的 reg 


属性 有 多 段 ， 可 通过 index 标 示 要 ioremap () 的 是 哪 一 段 ， 在 只 有 1 段 的 情况 ，index 为 


0。 采 用 设备 树 后 ， 一 些 设备 驱动 通过 of iomap () 而 不 再 通过 传统 的 ioremap () 进行 映射 ， 当 然 ， 传 统 的 ioremap () 的 用 户 也 不 少 。 

dss teers device node *dev, int index, 

上 述 API 通 过 设备 节点 获取 与 它 对 应 的 内 存 资 源 的 resource 结 构 体 。 其 本 质 是 分 析 reg 属 性 以 获取 内 存 基地 址 、 大 小 等 信息 并 填充 到 struct resource*r 参 数 指向 的 结构 体 中 。 
4 解析 中 断 


unsigned int irq of parse and map (struct device_node *dev, int index); 


通过 设备 树 获得 设备 的 中 断 号， 实际 上 是 从 .dts 中 的 interrupts 属 性 里 解析 出 中 断 号 。 若 设备 使 用 了 多 个 中 断 ，index 指 定 中 断 的 索引 号 。 


5. 获 取 与 节点 对 应 的 platform_device 


struct platform device *of_find_device_by node(struct device_node *np); 


在 可 以 拿 到 device_node 的 情况 下 ， 如 果 想 反 向 获取 对 应 的 platform_device， 可 使 用 上 述 APl。 


当然 ， 在 已 知 platform_device 的 情况 下 ， 想 获取 device_node 则 易如反掌 ， 例 如 : 


static int sirfsoc_dma probe (struct platform device *op) 
struct device_node *dn = op->dev.of_node; 


} 


185 总结 


MS 


充斥 着 ARM 社 区 的 大 量 垃圾 代码 导致 Linus 盛 她 ， 因 此 该 社区 在 2011~2012 年 进行 了 大 量 的 修整 工作 。ARM Linux 开 始 围绕 设备 树 展开 ， 设 备 树 有 自己 的 独立 语法 ， 它 的 源 文件 为 .dts， 编 译 后 得 
到 .dtb，Bootloader 在 引导 Linux 内 核 的 时 候 会 将 .dtb 地 址 告知 内 核 。 之 后 内 核 会 展开 设备 树 并 创建 和 注册 相关 的 设备 ， 因 此 arch/arm/mach-xxx 和 arch/arm/plat-xxx 中 的 大 量 用 于 注册 platform、1?2C、 
SPl 等 板 级 信息 的 代码 被 删除 ， 而 驱动 也 以 新 的 方式 与 在 .dts 中 定义 的 设备 节点 进行 匹配 。 


第 19 章 Linux 电源 管理 的 系统 架构 和 驱动 


本 章 导 读 


Linux 在 消费 电子 领域 的 应 用 已 经 相当 普遍 ， 而 对 于 消费 电子 产品 而 言 ， 省 电 是 一 个 重要 的 议题 。 


19.1 节 阐述 了 Linux 电 源 管理 的 总 体 架 构 。 


19.2~19.8 节 分 别论 述 了 CPUFreq、CPUIldle、CPU 热 插 拔 以 及 底层 的 基础 设施 Regulator、OPP 以 及 电源 管理 的 调试 工具 PowerTop。 


19.9 节 讲解 了 系统 挂 起 到 RAM 的 过 程 以 及 设备 驱动 是 如 何 对 挂 起 到 RAM 支 持 的 。 
19.10 节 讲解 了 设备 驱动 的 运行 时 挂 起 。 


本 章 是 Linux 设 备 驱动 工程 师 必 备 的 知识 体系 。 


19.1 Linux 电 源 管 理 的 全 局 架构 


Linux 电 源 管理 非常 复杂 ， 牵 扯 到 系统 级 的 待机 、 频 率 电 压 变换 、 系 统 空闲 时 的 处 理 以 及 每 个 设备 驱动 对 系统 待机 的 支持 和 每 个 设备 的 运行 时 (Runtime) 电源 管理 ， 可 以 说 它 和 系统 中 的 每 个 设备 驱动 
都 息息相关 。 


wu 
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图 19.1 呈 现 了 Linux 内 核电 源 管理 的 整体 架构 。 大 体 可 以 归纳 为 如 下 几 类 : 


= 


CPU 在 运行 时 根据 系统 负载 进行 动态 电压 和 频率 变换 的 CPUFreq。 


2) CPU 在 系统 空闲 时 根据 空闲 的 情况 进行 低 功 耗 模式 的 CPUldle。 


Ww 


多 核 系统 下 CPU 的 热 插 拔 支持 。 


4) 系统 和 设备 针对 延迟 的 特别 需求 而 提出 申请 的 PM QoS， 它 会 作用 于 CPUldle 的 具体 策略 。 


un 


设备 驱动 针对 系统 挂 起 到 RAM/ 硬 盘 的 一 系列 入 口 函 数 。 


6) SoC 进 入 挂 起 状态 、SDRAM 自 刷新 的 入 口 。 


A 


设备 的 运行 时 动态 电源 管理 ， 根 据 使 用 情况 动态 开关 设备 。 


8) 底层 的 时 钟 、 稳 压 器 、 频 率 /电压 表 (OPP 模 块 完成 ) 支撑 ， 各 驱动 子 系统 都 可 能 用 到 。 


用 户 空间 


echo sysfs 电源 应 用 


CPU 


CPU DVFS 
系统 级 运行 时 设备 DVES CPUIdle | | CPU 热 插 拔 || C CPUFeo 
(Devfreq) req 


挂 起 /恢复 挂 起 /恢复 


基础 设施 


SoC 平 台 级 电源 
操作 回调 


稳 压 器 


图 19.1 Linux 内 核电 源 管理 的 整体 架构 


19.2 ”CPUFreq 驱 动 


CPUFreq 子 系统 位 于 drivers/cpufreq 目 录 下 ， 负 责 进行 运行 过 程 中 CPU 频率 和 电压 的 动态 调整 ， 即 DVFS (Dynamic Voltage Frequency Scaling， 动 态 电压 频率 调整 ) 。 运 行 时 进行 CPU 电压 和 频率 
调整 的 原因 是 : CMOS 电 路 中 的 功 耗 与 电压 的 平方 成 正比 、 与 频率 成 正比 (Po fV2) ， 因 此 降低 电压 和 频率 可 降低 功 耗 。 


CPUFreq 的 核心 层 位 于 drivers/cpufreq/cpufreq.c 下 ， 它 为 各 个 SoC 的 CPUFreq 驱 动 的 实现 提供 了 一 套 统一 的 接口 ， 并 实现 了 一 套 notifier 机 制 ， 可 以 在 CPUFreq 的 策略 和 频率 改变 的 时 候 向 其 他 模块 
发 出 通知 。 另 外 ， 在 CPU 运 行 频 率 发 生变 化 的 时 候 ， 内 核 的 loops_per jiffy 常 数 也 会 发 生 相 应 变化 。 


19.3 CPUIdle 驱 动 


目前 的 ARM SoC 大 多 支持 几 个 不 同 的 Idle 级 别 ，CPUldle 驱 动 子 系统 存在 的 目的 就 是 对 这 些 1dle 状 态 进行 管理 ， 并 根据 系统 的 运行 情况 进入 不 同 的 ldle 级 别 。 具 体 SoC 的 底层 CPUldle 驱 动 实现 则 提供 一 
个 类 似 于 CPUFreq 驱 动 频率 表 的 1dle 级 别 表 ， 并 实现 各 种 不 同 ldle 状 态 的 进入 和 退出 流程 。 


对 于 Intel 系 列 笔 记 本 计算 机 而 言 ， 支 持 ACPI (Advanced Configuration and Power Interface， 高 级 配置 和 电源 接口 ) ， 一 般 有 4 个 不 同 的 C 状 态 (其 中 C0 为 操作 状态 ，C1 是 Halt 状 态 ，C2 是 Stop- 
Clock 状 态 ，C3 是 Sleep 状态 ) ， 如 表 19.3 所 示 。 


表 19.3 4 个 不 同 的 C 状 态 


z5 z 


而 对 于 ARM 而 言 ， 各 个 SoC 对 于 ldle 的 实现 方法 差异 比较 大 ， 最 简单 的 Idle 级 别 莫 过 于 将 CPU 核 置 于 WFI (等 待 中 断 发 生 ) 状态 ， 因 此 在 默认 情况 下 ， 若 SoC 未 实现 自身 的 芯片 级 CPUldle 驱 动 ， 则 会 进 
入 cpu_do idle () ， 对 于 ARM V7 而 言 ， 其 实现 位 于 arch/arm/mm/proc-v7.S 中 : 


ENTRY (cpu v7 _ do idle) 

dsb @ WFI may enter a low-power mode 
wi 

mov pe, lr 

ENDPROC (cpu_v7_do_idle) 


与 CPUFreq 类 似 ，CPUldle 的 核心 层 提 供 了 如 下 API 以 用 于 注册 一 个 cpuidle_driver 的 实例 : 


intcpuidle register _driver(struct cpuidle driver *drv); 


并 提供 了 如 下 APl 来 注册 一 个 cpuidle_device: 


int cpuidle register_qdevice (struct cpuidle device *dev); 


CPUIdle 驱 动 必 须 针 对 每 个 CPU 注册 相应 的 cpuidle_device， 这 意味 着 对 于 多 核 CPU 而 言 ， 需 要 针对 每 个 CPU 注册 一 次 。 


cpuidle register driver () 接受 1 个 cpuidle_driver 结 构 体 的 指针 参数 ， 该 结构 体 是 CPUldle 驱 动 的 主体 ， 其 定义 如 代码 清单 19.4 所 示 。 


代码 清单 19.4 cpuidle_driver 结 构 体 


lstruct cpuidle driver { 


2 const char *name; 

3 struct module *owner; 

4 

5 unsigned int power _specified:1; 

6 /* set to 1 to use the core cpuidle time keeping (for all states). */ 
7 unsigned int en_core_tk_irgen:1; 

8 struct cpuidle state states [CPUIDLE STATE MAX]; 

9 int state_count; T ~ 

10 int safe_state_index; 

11}; ~ ~ 


该 结构 体 的 关键 成 员 是 1 个 cpuidle_state 的 表 ， 其 实 该 表 就 是 用 于 存储 各 种 不 同 Idle 级 别 的 信息 ， 它 的 定义 如 代码 清单 19.5 所 示 。 


代码 清单 19.5 ”cpuidle_state 结 构 体 


1struct cpuidle state { 
2 char name [CPUIDLE NAME LEN]; 


3 chardesc [CPUIDLE_DESC_LEN] ; 

4 

5 unsigned int flags; 

6 unsigned intexit_latency; /* in US */ 

7 int power usage; /* in mW */ 

8 unsigned inttarget_residency; /* in US */ 

9 bool disabled; /* disabled on all CPUs */ 
10 

11 int (*enter) (struct cpuidle device *dev, 

12 struct cpuidle driver *drv, 

13 int index); ` 

14 

15 int (*enter_dead) (struct cpuidle device *dev, int index); 


16}; 


name 和 desc 是 该 ldle 状 态 的 名 称 和 描述 ，exit_ latency 是 退出 该 ldle 状 态 需要 的 延迟 ，enter () 是 进入 该 Idle 状 态 的 实现 方法 。 


忽略 细节 ， 一 个 具体 的 SoC 的 CPUldle 驱 动 实例 可 见于 arch/arm/mach-ux500/cpuidle.c (最 新 的 内 核 已 经 将 代码 转移 到 了 drivers/cpuidle/cpuidle-ux500.c 中 ) 


Apldle， 其 具体 实现 框架 如 代码 清单 19.6 所 示 。 


代码 清单 19.6 ”ux500CPUIdle 驱 动 案例 


， 它 有 两 个 ldle 级 别 ， 即 WFI 和 


lstaticatomic t master = ATOMIC_INIT(0); 

2static DEFINE SPINLOCK (master lock); 

3static DEFINE PER CPU(struct cpuidle device, ux500 cpuidle device) ; 
4 

Sstatic inline int ux500_enter_idle(struct cpuidle device *dev, 

6 struct cpuidle driver *drv, int index) 


listaticstruct cpuidle driver ux500_idle driver = { 
12 .name = "ux500 idle", 


13 .owner = THIS MODULE, 

14 .en core tk_irgen = 1, 

15 .states = { 

16 ARM_CPUIDLE_WFI_STATE, 

alg { 

18 „enter = ux500_enter_idle, 
19 .exit latency = 70, 

20 .target_residency = 260, 

21 .flags = CPUIDLE FLAG TIME VALID, 
22 .name = "ApIdle", 
23 .desc = "ARM Retention", 

24 }, 

25 }, 

26 .safe state index = 0, 

27 .state_count = 2, 

28}; 

29 

30/* 


31 * For each cpu, setup the broadcast timer because we will 
32 * need to migrate the timers for the states >= ApIdle. 


33.47 

34static void ux500_setup_broadcast_timer (void *arg) 
35{ 

36 intcpu = smp_processor_id(); 


37 clockevents notify (CLOCK EVT NOTIFY BROADCAST ON, &cpu) ; 
38} 

39 

40int init ux500 idle init (void) 

41{ D 
AF 288 

43 ret = 
44 

45 for each online cpu(cpu) { 

“device = &per_cpu(ux500_cpuidle device, cpu); 
device->cpu = cpu; 

ret = cpuidle_register_device (device) ; 


cpuidle_register_driver(&ux500_idle driver); 


52} 
53device_initcall (ux500_idle init); 


与 CPUFreq 类 似 ， 在 CPUldle 子 系统 中 也 有 对 应 的 governor 来 抉择 何 时 进入 何 种 1dle 级 别 的 策略 ， 这 些 governor 包 括 CPU_IDLE_ GOV_LADDER, CPU_IDLE_ GOV_MENU。LADDER 在 进入 和 退出 ldle 


级 别 的 时 候 是 步 进 的 ， 它 以 过 去 的 Idle 时 间作 为 参考 ， 而 MENU 总 是 根 
配置 选项 ， 而 后 者 依赖 于 内 核 的 NO_HZ 选 项 。 


居 预 期 的 空闲 时 间 直 接 进 入 目标 ldle 级 别 。 前 者 适 上 


FAX 


动态 时 间 节 拍 的 系统 ( 即 没 有 选择 NO_HZ 的 系统 ) ， 不 依赖 于 NO_HZ 


图 19.3 演 示 了 LADDER 步 进 从 C0 进 入 C3， 而 MENU 则 可 能 直接 从 C0 跳 入 C3。 
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图 19.3 LADDER 与 MENU 的 区 别 


CPUldle 子 系统 还 通过 sys 向 userspace 导 出 了 一 些 节 点 : 
' 一 类 是 针对 整个 系统 的 /sys/devices/system/cpu/cpuidle， 通 过 其 中 的 current_driver、current_governor、available_governors 等 节点 可 以 获取 或 设置 CPUIdle 的 驱动 信息 以 及 governor。 
“ 一 类 是 针对 每 个 CPU 的 /sys/devices/system/cpu/cpux/cpuidle， 通 过 子 节 点 暴露 各 个 在 线 的 CPU 中 每 个 不 同 Idle 级 别 的 name、desc、power、latency 等 信息 。 


综合 以 上 的 各 个 要 素 ， 可 以 给 出 Linux CPUldle 子 系统 的 总 体 架 构 ， 如 图 19.4 所 示 。 


/sys/devices/system/cpu/cpux/cpuidle 


/sys/devices/system/cpu/cpuidle 


LADDER MENU 


CPUIdle 核 


SoC 级 别 


acpi-cupidle 


cpuidle 


ARM 级 别 


cpu do idle 


19.4 Linux CPUIdle 子 系统 的 整体 架构 


19.4 PowerTop 


PowerTop 是 一 款 开源 的 用 于 进行 电量 消耗 分 析 和 电源 管理 诊断 的 工具 ， 其 主页 位 于 Intel 开 源 技术 中 心 的 https://01.org/powertop/， 维 护 者 是 Arjan van de Ven 和 Kristen Accardi。PowerTop 可 分 
析 系 统 中 软件 的 功 耗 ， 以 便 找到 功 耗 大 户 ， 也 可 显示 系统 中 不 同 的 C 状 态 (与 CPUldle 驱 动 对 应 ) 和 P 状 态 (与 CPUFreq 驱 动 对 应 ) 的 时 间 比例 ， 并 采用 了 基于 TAB 的 界面 风格 ， 如 图 19.5 所 示 。 


Overview 


The battery reports a discharge rate of 
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14.3 W 


The estimated remaining tine is 93 minutes 
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Process 
Process 
Interrupt 
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19.5 PowerTOP 


Device stats Tunables 


0.0 GPU ops/second, 9.0 VFS ops/sec and 4.1% CPU use 


Description 

Display backlight 

USB device: USB Optical Mouse 
PS/2 Touchpad / Keyboard / House 
Audio codec mwCOD3: Intel 

Audio codec hwCODO: Realtek 
/usr/bin/ Xorg :0 -background none 
xfce4-screensho 

USB device: AX88772 
(7) sched{softlrg) 
[41] 1915 
/usr/bin/Terminal 
[23] ehci_hed usb2 
iscsid 

xfwm4 --display :0.0 
[6] tasklet(softirq) 
xfdesktop --display :0.0 --sm-cli 
console callback 

[1] timer{softira) 


--Sm-client - 


Regulator 是 Linux 系 统 中 电源 管理 的 基础 设施 之 一 ， 用 于 稳 压 电源 的 管理 ， 是 各 种 驱动 子 系统 中 设置 电压 的 标准 接口 。 前 面 介绍 的 CPUFreq 驱 动 就 经 常 使 用 它 来 设 定 电压 ， 比 如 代码 清单 19.2 的 第 
57~59 行 。 


而 Regulator 则 可 以 管理 系统 中 的 供电 单元 ， 即 稳 压 器 (Low Dropout Regulator，LDO， 即 低压 差 线性 稳 压 器 ) ， 并 提供 获取 和 设置 这 些 供电 单元 电压 的 接口 。 一 般 在 ARM 电 路 板 上 ， 各 个 稳 压 器 和 
设备 会 形成 一 个 Regulator 树 形 结构 ， 如 图 19.6 所 示 。 


Linux 的 Regulator 子 系统 提供 如 下 API 以 用 于 注册 /注销 一 个 稳 压 器 : 


structregulator_dev * regulator _ register (conststructregulator desc 
*regulator desc, conststructregulator_config *config); 


voidregulator unregister(structregulator dev *rdev) ; 


regulator register () 函数 的 两 个 参数 分 别 是 regulator_desc 结 构 体 和 regulator_config 结 构 体 的 指针 。 


电源 


(Power Supply ) fii (Regulator! 


人 硬件 Regulator2 


设备 1 


设备 2 


便 件 Regulator3 


> ”设备 1 


> 设备 2 


S] 
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regulator_desc 结 构 体 是 对 这 个 稳 压 器 属性 和 操作 的 封装 ， 如 代码 清单 19.7 所 示 。 


代码 清单 19.7 ”regulator_desc 结 构 体 


lstruct regulator desc { 
const char *name; /* Regulator 的 名 字 */ 
const char *supply_name; /* Regulator Supply 的 名 字 */ 
int id; 
unsigned n_voltages; 
struct regulator_ops *ops; 
int irq; 
enum regulator_type type; /* 是 电压 还 是 电流 Regulator */ 
struct module *owner; 


3 
4 
5 
6 
7 
8 
9 
10 
11 unsigned int min uV; /* 在 线性 映射 情况 下 最 低 的 Selector 的 电压 */ 
12 unsigned int uV_step; /* 在 线性 映射 情况 下 每 步 增加 / 减 小 的 电压 */ 
13 unsigned int ramp delay; /* 电压 改变 后 稳定 下 来 所 需 时 间 */ 
14 
15 
16 
17 
18 
19 
20 


const unsigned int *volt_table; /* 基于 表 映 射 情况 下 的 电压 映射 表 */ 


unsigned int vsel_reg; 
unsigned int vsel mask; 
unsigned int enable reg; 
unsigned int enable_mask; 
21 unsigned int bypass_reg; 
22 unsigned int bypass_mask; 


24 unsigned int enable_time; 


上 述 结构 体 中 的 regulator_ops 指 针 ops 是 对 这 个 稳 压 器 硬件 操作 的 封装 ， 其 中 包含 获取 、 设 置 电压 等 的 成 员 函 数 ， 如 代码 清单 19.8 所 示 。 


代码 清单 19.8 regulator_ops 结 构 体 


1struct regulator_ops { 


2 /* enumerate supported voltages */ 

3 int (*list_voltage) (struct regulator_dev *, unsigned selector); 

4 

5 /* get/set regulator voltage */ 

6 int (*set_voltage) (struct regulator_dev *, int min_uV, int max_uV, 
7 T unsigned *selector); ~ T 

8 int (*map_voltage) (struct regulator dev *, int min uV, int max uV); 
9 int (*set_voltage_sel) (struct regulator_dev *, unsigned selector); 
10 int (*get_voltage) (struct regulator_dev *); 

11 int (*get_voltage_sel) (struct regulator_dev *); 

12 

13 /* get/set regulator current */ 

14 int (*set_current_limit) (struct regulator_dev *, 

15 int min uA, int max uA); 

16 int (*get_current_limit) (struct regulator_dev *); 

17 

18 /* enable/disable regulator */ 

19 int (*enable) (struct regulator_dev *); 

20 int (*disable) (struct regulator_dev *); 

21 int (*is enabled) (struct regulator_dev *); 

22 

23 

24}; 


在 drivers/regulator 目 录 下 ， 包 含 大 量 的 与 电源 芯片 对 应 的 Regulator 驱 动 ， 如 Dialog 的 DA9052、lntersil 的 ISL6271A、ST-Ericsson 的 TPs61050/61052、Wolfon 的 WM831x 系 列 等 ， 它 同时 提供 了 
一 个 虚拟 的 Regulator 驱 动作 为 参考 ， 如 代码 清单 19.9 所 示 。 


代码 清单 19.9 虚拟 的 Regulator 驱 动 


1struct regulator_dev *dummy_regulator_rdev; 
2static struct regulator init data dummy _initdata; 
3static struct regulator_ops dummy_ops; 

4static struct regulator_desc dummy_desc = { 


5 .name "regulator-dummy", 
6 -id = -1, 

7 «type = REGULATOR_VOLTAGE, 
8 .owner = THIS MODULE, 

9 .ops = &dummy_ops, 

10}; 


12static int _ devinit dummy_regulator_probe(struct platform device *pdev) 
13{ 


14 struct regulator_config config = { }; 

15 int ret; ~ 

16 

17 config.dev = &pdev->dev; 

18 config.init_data = &dummy_initdata; 

19 

20 Gummy regulator rdev = regulator_register(&dummy desc, &config); 
21 if (IS_ERR(dummy_regulator_rdev)) { 

22 “ret = PTR ERR (dummy regulator_rdev) ; 

23 pre err ("Failed to register regulator: Sd\n", ret); 
24 return ret; 

25 } 

26 

27 return 0; 

28} 


Linux 的 Regulator 子 系统 提供 消费 者 (Consumer) API 以 便 让 其 他 的 驱动 获取 、 设 置 、 关 闭 和 使 能 稳 压 器 : 


structregulator * regulator get (structdevice *dev, const char *id); 
structregulator * devm regulator get (structdevice *dev, const char *id); 
structregulator * regulator < get 4 exclusive (structdevice *dev, const char *id); 
voidregulator_put (structregulator *regulator) ; 

voiddevm_regulator put (structregulator *regulator) ; 
intregulator_enable(structregulator *regulator) ; 
intregulator_disable(structregulator *regulator) ; 
intregulator_set_voltage(structregulator *regulator, intmin uV, intmax_uV); 
intregulator_get_voltage(structregulator *regulator) ; 


些 消费 者 API 的 地 位 大 臻 与 GPIO 子 系统 的 gpio_request () 、 时 钟 子 系统 的 clk_get () 、dmaengine 子 系统 的 dmaengine_submit () 等 相当 ， 属 于 基础 设施 。 


19.6 OPP 


现今 的 SoC 一 般 包 含 很 多 集成 组 件 ， 在 系统 运行 过 程 中 ， 并 不 需要 所 有 的 模块 都 运行 于 最 高 频率 和 最 高 性 能 。 在 SoC 内 ， 某 些 domain 可 以 运行 在 较 低 的 频率 和 电压 下 ， 而 其 他 domain 可 以 运行 在 较 高 


的 频率 和 电压 下 ， 某 个 domain 所 支持 的 < 频率 ， 电 压 > 对 的 集合 被 称 为 Operating Performance Point， 缩 写 为 OPP。 


int opp_add(struct device *dev, unsigned long freq, unsigned long u_volt); 


目前 ，TI OMAP CPUFreq 驱 动 的 底层 就 使 用 了 OPP 这 种 机 制 来 获取 CPU 所 支持 的 频率 和 电压 列表 。 在 开机 的 过 程 中 ，TI OMAP4 芯 
omap2/ 中 ) ， 如 代码 清单 19.10 所 示 。 


代码 清单 19.10 TI OMAP4 CPU 的 OPP 表 


会 注册 针对 CPU 设备 的 OPP 表 (代码 位 于 arch/arm/mach- 


lstatic struct omap opp def _ initdata omap44xx opp def list[] = { 
/* MPU OPP1 - OBP50 ¥7 ace, 
3 OPP_INITIALIZER("mpu", true, 300000000, OMAP4430 VDD MPU _OPP50 UV), 
4 /* MPU OPP2 - OPP100 */ eaters T 
5 OPP_INITIALIZER("mpu", true, 600000000, OMAP4430 VDD MPU OPP100_ UV), 
6 /* MPU OPP3 - OPP-Turbo */ thee T 
i} OPP_INITIALIZER("mpu", true, 800000000, OMAP4430_ VDD MPU OPPTURBO UV), 
8 /* MPU OPP4 - OPP-SB */ ne ats slate ~ 
9 OPP_INITIALIZER("mpu", true, 1008000000, OMAP4430_VDD MPU_OPPNITRO_UV), 


13 * omap4_opp_init() - initialize omap4 opp table 

14 */ 

15int _ init omap4_opp_init (void) 

16{ 

17 ae 

18 r = omap init opp table (omap44xx opp def list, 
19 ARRAY SIZE (omap44xx opp def list)); 
20 

21 return r; 

22} 

23device_initcall(omap4_opp_init); 

24int _ Init omap init opp table(struct omap opp def *opp def, 


25 u32 opp í def size) 

26{ 

27 => 

28 /* Lets now register with OPP library */ 

29 for (i = 0; i < opp_def_size; i++, opp_def++) { 

30 ie 

31 if (!strncmp(opp_def->hwmod_name, "mpu", 3)) { 

32 ie 

33 * All current OMAPs share voltage rail and 
34 * clock source, so CPU0 is used to represent 
35 * the MPU-SS. 

36 */ 

37 dev = get_cpu device (0); 

38 fai 

39 r = opp_add(dev, opp_def->freq, opp def->u volt); 
40 en 

41 } 

42 return 0; 

43} 


针对 与 device 结 构 体 指针 dev 对 应 的 domain 中 增加 一 个 新 的 OPP， 参 数 freq 和 u_volt 即 为 该 OPP 对 应 的 频率 和 电压 。 


int opp_enable(struct device *dev, unsigned long freq); 
int opp_disable (struct device *dev, unsigned long freq); 


上 述 APIF 


于 使 能 和 禁止 某 个 OPP， 一 旦 被 禁止 ， 其 available 将 成 为 false， 之 后 有 设备 驱动 想 设置 为 这 个 OPP 就 不 再 可 能 了 。 
下 面 的 代码 实现 


=o, 


当 温度 超过 某 个 范 | 


后 ， 系 统 不 允许 1GHz 的 工作 频率 ， 可 采 


用 类 似 


if (cur_temp > temp_high thresh) { 
/* Disable 1GHz if it was enabled */ 
rcu read lock(); 
opp = opp find freq exact (dev, 1000000000, true); 
rcu 1 | read | unlock () 7 
/* Just error check */ 


if (!IS ERR (opp) ) 
ret = opp disable (dev, 1000000000); 
else a 

goto try_something_else; 

} 


上 述 代 码 中 调用 的 opp_find_freq_exact () 用 于 寻找 与 一 个 确定 频率 和 available 匹 配 的 OPP， 其 原型 为 : 


struct opp *opp find freq exact (struct device *dev, unsigned long freq, 
bool available); 


另外 ，Linux 还 提供 两 个 变 体 ，opp find_freq_floor () 用 于 寻找 1 个 OPP， 它 的 频率 向 上 接近 或 等 于 指定 的 频率 ; opp find _freq_ceil () 


两 个 函数 的 原型 为 : 


于 寻找 1 个 OPP， 它 的 频率 向 下 接近 或 等 于 指定 的 频率 ， 这 


struct opp *opp find freq floor (struct device *dev, unsigned long *freq); 
struct opp *opp_find_freq_ceil(struct device *dev, unsigned long *freq) 7 


我 们 可 用 下 面 的 代码 分 别 寻找 1 个 设备 的 最 大 和 最 小 工作 频率 : 


freq = ULONG MAX; 

rcu read lock(); 
opp_find freq floor (dev, &freq); 
rcu read unlock(); 

freq = 07 

rcu read lock(); 
opp_find freq ceil (dev, &freq); 
rcu read unlock(); 


在 频率 降低 的 同时 ， 支 撑 该 频率 运行 所 需 的 电压 也 往往 可 以 动态 调 低 ; 反之 ， 则 可 能 


需要 调 高 ， 下 面 这 两 个 API 分 别 用 于 获取 与 其 OPP 对 应 的 电压 和 频率 : 


unsigned long opp_get_voltage(struct opp *opp); 
unsigned long opp_get_freq(struct opp *opp); 


举 个 例子 ， 当 某 CPUFreq 驱 动 想 将 CPU 设置 为 某 一 频率 的 时 候 ， 它 可 能 会 同时 设置 电压 ， 其 代码 流程 为 : 


soc_switch_to_freq_voltage (freq) 


/* do things */ 
rcu read lock(); 
opp = opp_find_freq_ceil(dev, &freq); 
V = opp_get_voltage (opp) ; 
rcu read unlock(); 
if v = 7 


regulator_set_voltage (http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/.., v); 


/* do other things */ 


如 下 简单 的 API 可 用 于 获取 某 设 备 所 支持 的 OPP 的 个 数 : 


int opp_get_opp_count (struct device *dev); 


前 面 提 到 ，TI OMAP CPUFreq 驱 动 的 底层 就 使 用 了 OPP 这 种 机 制 来 获取 CPU 所 支持 的 频率 和 电 
drivers/cpufreq/omap-cpufreq.c 中 ， 则 借助 了 快捷 函数 opp_init cpufreq_table () 来 根据 前 


注册 的 OPP 建 立 CPUFreq 的 频率 表 : 


回 


压 列表 。 它 在 omap init_opp_table () 函数 中 添加 了 相应 的 OPP， 在 TI OMAP 芯 片 的 CPUFreq 驱 动 


static int _ cpuinit omap_cpu_init (struct cpufreq_policy *policy) 
{ 


if (!freq_table) 
result = opp_init_cpufreq_table(mpu_dev, &freq_table); 


} 


而 在 CPUFreq 驱 动 的 目标 成 员 函 数 omap_target () 中 ， 则 使 用 与 OPP 相 关 的 APl 来 获取 频率 和 电压 : 


static int omap target (struct cpufreq_policy *policy, 
unsigned int target_freq, 
unsigned int relation) 


{ 


if (mpu_reg) { 
opp = opp_find_freq_ceil(mpu_dev, &freq); 


volt = opp_get_voltage (opp) ; 
} 


drivers/cpufreq/omap-cpufreq.c 相 对 来 说 较为 规范 ， 它 在 < 频率 ， 电 压 > 表 方面 ， 在 底层 使 用 了 OPP， 在 设置 电压 的 时 候 又 使 用 了 规范 的 Regulator API. 


比较 新 的 驱动 一 般 不 太 喜 欢 直接 在 代码 里 面 固化 OPP 表 ， 而 是 喜欢 在 相应 的 节点 处 添加 operating-points 属 性 ， 如 imx27.dtsi 中 的 : 


cpus { 
#size-cells = <0>; 
#address-cells = <1>; 
cpu: cpu@0 { 
device_type = "cpu"; 
compatible = "arm,arm926ej-s"; 


operating-points = < 
/* kHz uV */ 
266000 1300000 
399000 1450000 
>; 
clock-latency = <62500>; 
clocks = <&clks IMX27 CLK CPU DIV>; 
voltage-tolerance = <5>; 
}; 
i 


如 果 CPUFreq 的 变化 可 以 使 用 非常 标准 的 regulator、clk AP1， 我 们 甚至 可 以 直接 使 


drivers/cpufreq/cpufreq-dt.c 这 个 驱动 。 这 样 


cpufreq-dt 设 备 就 可 以 了 ， 在 arch/arm/mach-imx/imx27-dt.c、arch/arm/mach-imx/mach-imx51.c 中 可 以 找到 类 似 的 例子 : 


ns 


要 在 CPU 节点 上 填充 好 频率 电压 表 ， 然 后 在 平台 代码 里 面 注册 


ZNT 


static void _ init imx27_dt_init (void) 
struct platform device info devinfo = { .name = "cpufreg-dt", }; 


of platform populate (NULL, of default bus match table, NULL, NULL); 
platform _device_register_full (&devinfo) ; 


19.7 PM QoS 


Linux 内 核 的 PM Qos 系 统 针对 内 核 和 应 用 程序 提供 了 一 套 接 口 ， 通 过 这 个 接口 ， 用 户 可 以 设 定 自身 对 性 能 的 期 望 。 一 类 是 系统 级 的 需求 ， 通 过 cpu_dma_latency、network_latency 和 


network throughput 这 些 参数 来 设 定 ; 另 一 类 是 单个 设备 可 以 根据 自身 的 性 能 需求 发 起 per-device 的 PM QoS 请 求 。 


在 内 核 空间 ， 通 过 pm_qos_ add _ request () 函数 可 以 注册 PM QoS 请 求 : 


void pm_qos_add_request (struct pm qos request *req, 
int pm_gos_ class, s32 value); 


通过 pm_qos_update_request () 函数 可 以 更 新 已 注册 的 PM QoS 请 求 : 


void pm qos update request (struct pm qos request *req, 

~~ ~ s32 new value); ` 
void pm qos update request timeout (struct pm qos_request *req, s32 new_value, 
unsigned long timeout us); and K 


通过 pm_qos_remove_request () 函数 可 以 删除 已 注册 的 PM QoS 请 求 : 


void pm qos_remove request (struct pm qos request *req); 


壁 如 在 drivers/media/platform/via-camera.c 这 个 摄像 头 驱动 中 ， 当 摄像 头 开启 后 ， 通 过 如 下 语句 可 以 阻止 CPU 进 入 C3 级 别 的 深度 ldle: 


static int viacam_streamon(struct file *filp, void *priv, enum v412 buf type t) 


{ 


pm qos_add request (&cam->gos_request, PM QOS CPU DMA LATENCY, 50); 


这 是 因为 ， 在 CPUldle 子 系统 中 ， 会 根据 PM_QOS CPU_DMA_LATENCY 请 求 的 情况 选择 合适 的 C 状 态 ， 如 drivers/cpuidle/governorsladder.c 中 的 ladder_select_state () 就 会 判断 目标 C 状 态 的 


exit_latency 与 QoS 要 求 的 关系 ， 如 代码 清单 19.11 所 示 。 


代码 清单 19.11 CPUldle LADDER governor 对 Qos 的 判断 


lstatic int ladder_select_state(struct cpuidle driver *drv, 


2 struct cpuidle device *dev) 

3{ 

4 oF 

5 int latency_req = pm qos_request (PM QOS CPU DMA LATENCY) ; 

6 

7 

8 

9 /* consider promotion */ 

10 if (last idx < drv->state_count - 1 && 

11 !drv->states[last idx + 1].disabled && 

12 !'dev->states | usage [last_ idx + 1].disable && 

13 last_residency > last_state->threshold.promotion_time && 
14 dry- >states[last - idx + 1].exit_latency <= latency_req) { 
15 last_state->stats.promotion_count++; 

16 last_state->stats.demotion_count = 0; 

17 if (last : state->stats. promotion . count>= 

18 last_state->threshold.promotion_count) { 

19 “ladder _do_selection(ldev, Īast_idx, last_idx + 1); 
20 return last_idx + 1; 

21 } = 

22 } 

23 

24} 


LADDER 在 选择 是 否 进入 更 深层 次 的 C 状 态 时 ， 会 比较 C 状 态 的 exit_latency 要 小 于 通过 pm_qos request (PM_QOS CPU DMA LATENCY) 得 到 的 PM QoS 请 求 的 延迟 ， 


同样 的 逻辑 也 出 现 于 drivers/cpuidle/governorsmenu.c 中 ， 如 代码 清单 19.12 的 第 18~ 19 行 。 


代码 清单 19.12 CPUldle MENU governor 对 QoS 的 判断 


见 代码 


T 


In 


19.11 的 第 14 行 。 


lstatic int menu_select (struct cpuidle driver *drv, struct cpuidle device *dev) 


2{ 

3 struct menu device *data = & get cpu var(menu devices); 

4 int latency_req = pm_qos_request (PM QOS CPU DMA LATENCY) ; 

5 HA 

6 i 

7 * Find the idle state with the lowest power while satisfying 
8 * our constraints. 

9 af 

10 for (i = CPUIDLE DRIVER STATE START; i < drv->state_count; i++) { 
11 struct cpuidle state *s = &drv—>states[i]; 

12 struct cpuidle state_usage *su = &dev->states_usage[i]; 
13 

14 if (s->disabled || su->disable) 

15 continue; 

16 if (s->target_residency > data->predicted_us) 

17 continue; ~ 

18 if ( s->exit_latency > latency_req) 

19 continue; T 

20 if (s->exit_latency * multiplier > data->predicted us) 
21 continue; ~ 

22 

23 if (s->power_usage < power_usage) { 

24 power_usage = s->power_usage; 

25 data->last_state_idx = i; 

26 data->exit_us = s->exit_latency; 

27 } 

28 } 

29 


30 return data->last_state_idx; 


31} 
还 是 回 到 drivers/media/platform/via-camera.c 中 ， 当 摄像 头 关闭 后 ， 它 会 通过 如 下 语句 告知 上 述 代 码 对 PM_QOS_ CPU_DMA_LATENCY 的 性 能 要 求 取消 : 


static int viacam_streamon(struct file *filp, void *priv, enum v412_buf_type 七 ) 


{ 


pm_qos_remove_request (&cam->qos_request) ; 


类 似 的 在 设备 驱动 中 申请 QoS 特 性 的 例子 还 包括 drivers/net/wireless/ipw2x00/ipw2100.c、drivers/tty/serial/omap-serial.c、drivers/net/ethernet/intel/e1000e/netdev.c 等 。 


应 用 程序 则 可 以 通过 向 /dewcpu_dma_latency 和 /dewnetwork_latency 这 样 的 设备 节点 写 入 值 来 发 起 QoS 的 性 能 请 求 。 


19.8 “CPU 热 插 拔 


Linux CPU 热 插 拔 的 功能 已 经 存在 相当 长 的 时 间 了 ，Linux 3.8 之 后 的 内 核 里 一 个 小 小 的 改进 就 是 CPU0 也 可 以 热 插 拔 。 


一 般 来 讲 ， 在 用 户 空间 可 以 通过 /sys/devices/system/cpu/cpun/online 节 点 来 操作 一 个 CPU 的 在 线 和 离线 : 


# echo 0>/sys/devices/system/cpu/cpu3/online 
CPU 3 is now offline 
# echol >/sys/devices/system/cpu/cpu3/online 


通过 echo0>/sys/devices/system/cpu/cpu3/online 关 闭 CPU3 的 时 候 ，CPU3 上 的 进程 都 会 被 迁移 到 其 他 的 CPU 上 ， 以 保证 这 个 拔除 CPU3 的 过 程 中 ， 系 统 仍然 能 正常 运行 。 一 旦 通过 echo 
1>/sys/devices/system/cpu/cpu3/online 再 次 开启 CPU3，CPU3 又 可 以 参与 系统 的 负载 均衡 ， 分 担 系统 中 的 任务 。 


在 嵌入 式 系 统 中 ，CPU 热 插 拔 可 以 作为 一 种 省 电 的 方式 ， 在 系统 负载 小 的 时 候 ， 动 态 关 闭 CPU， 在 系统 负载 增 大 的 时 候 ， 再 开启 之 前 离线 的 CPU。 目 前 各 个 芯片 公司 可 能 会 根据 自身 SoC 的 特点 ， 对 内 
核 进行 调整 ， 来 实现 运行 时 “ 热 播 披 ”。 这 里 以 Nvidia 的 Tegra3 为 例 进行 说 明 。 


中 4 个 为 高 性 能 设计 的 G 核 ，1 个 为 低 功 耗 设 计 的 LP 核 ， 如 图 19.7 所 示 。 


Tegra3 采 用 vSMP (variableSymmetric Multiprocessing) 架构 ， 共 有 5 个 Cortex-A9 处 理 器 ， 


图 19.7 Tegra3 的 架构 


在 系统 运行 过 程 中 ，Tegra3 的 Linux 内 核 会 根据 CPU 负 载 切 换 低 功 耗 处 理 器 和 高 功 耗 处 理 器 。 除 此 之 外 ，4 个 高 性 能 ARM 核 心 也 会 根据 运行 情况 ， 动 态 借用 Linux 内 核 支 持 的 CPU 热 播 拔 进行 CPU 的 插 
入 / 拔 出 操作 。 


华硕 EeePad 运 行 高 负载 、 低 负载 应 用 ， 通 过 dmesg 查 看 内 核 消息 也 确实 验证 了 多 核 的 热 揪 拔 以 及 G 核 和 LP 核 之 间 的 动态 切换 : 


<4>[104626.426957] CPU1: Booted secondary processor 
<7>[104627.427412] tegra CPU: force EDP limit 720000 kHz 
<4>[104627.427670] CPU2: Booted secondary processor 
<4>[104628.537005] stop_machine_cpu_stop cpu=0 

<4>[104628.537017] stop_machine_cpu_stop cpu=2 

<4>[104628.537059] stop machine cpu stop cpu=1 

<4>[104628.537702] __stop_cpus: wait for completion timeout+ 
<4>[104628.537810 stop_cpus: smp=0 done.executed=1 done.ret =0- 
<5>[104628.537960] CPU1: clean shutdown 

<4>[104630.537092] stop_machine_cpu_stop cpu=0 

<4>[104630.537172] stop machine cpu stop cpu=2 

<4>[104630.537739 stop_cpus: wait_for_completion_timeout+ 
<4>[104630.538060] _ stop cpus: smp=0 done.executed=1 done.ret =0- 
<5>[104630.538203] CPU2: clean shutdown 

<4>[104631.306984] tegra_watchdog_touch 


高 性 能 处 理 器 和 低 功 耗 处 理 器 切换 : 


<3>[104666.799152] LP=>G: prolog 22 us, switch 2129 us, epilog 24 us, total 2175 us 
<3>[104667.807273] G=>LP: prolog 18 us, switch 157 us, epilog 25 us, total 200 us 
<4>[104671.407008] tegra_watchdog_touch 

<4>[104671.408816] nct1008 get temp: ret temp=35C 

<3>[104671.939060] LP=>G: prolog 17 us, switch 2127 us, epilog 22 us, total 2166 us 
<3>([104672.938091] G=>LP: prolog 18 us, switch 156 us, epilog 24 us, total 198 us 


在 运行 过 程 中 ， 我 们 发 现 4 个 G 核 会 动态 热 插 拔 ， 而 4 个 G 核 和 1 个 LP 核 之 间 ， 会 根据 运行 负载 进行 集群 切换 。 这 一 部 分 都 是 在 内 核 里 面 实现 的 ， 和 tegra 的 CPUF req 驱 动 (DVFS 驱 动 ) 紧密 关联 。 相 关 
代码 可 见于 http://nv-tegra.nvidia.com/gitweb/?p=linux-2.6.git;a=tree;f=arch/arm/mach-tegra;h=e5d1ff2;hb=rel-14r7 


1. 如 何 判断 自己 是 什么 核 


每 个 核 都 可 以 通过 调用 is _Ip_cluster () 来 判断 当前 正在 执行 的 CPU 是 LP 还 是 G 处 理 器 : 


static inline unsigned int is lp cluster (void) 
{ 
unsigned int reg; 
reg =read1(FLOW_CTRL_CLUSTER_CONTROL) ; 
return (reg& 1); /* 0 == G, 1 = LP */ 


即 读 ELLOW_CTRL CLUSTER_CONTROL 寄 存 器 判断 自己 是 G 核 还 是 LP 核 。 


2.G 核 和 LP 核 集群 的 切换 时 机 


[场景 1] 何 时 从 LP 核 切换 给 G 核 : 当前 执行 于 LP 集群 ，CPUFreq 驱 动 判断 出 LP 核 需要 增 频率 到 超过 高 值 门限 ， 即 TEGRA_HP_UP: 


CaseTEGRA HP _ UP: 
ifl(is lp cluster() && !no lp) { 
~ Gf (!clk_set_parent (cpu_clk, cpu_g_clk)) { 
hp_ stats update (CONFIG NR CPUS, false); 
hp stats update(0, true); 
/* catch-upwith governor target speed */ 
tegra_cpu_set_speed_cap (NULL) ; 


[场景 2] 何 时 从 G 核 切换 给 LP 核 : 当前 执行 于 G 集 群 ，CPUFreq 驱 动 判断 出 某 G 核 需要 降 频率 到 低 于 低 值 门限 ， 即 TEGRA_HP_DOWN， 且 最 慢 的 CPUID 不 小 于 nr_cpu_ids (实际 上 代码 逻辑 跟踪 等 价 
于 只 有 CPU0 还 活着 的 情况 ) : 


CaseTEGRA HP_ DOWN: 
cpu= tegra_get_slowest_cpu_n(); 
if(cpu < nr cpu ids) { 
http: //www.hzcourse .com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
}else if(!is lp cluster() && !no lp) { 
if (!clk_set_parent (cpu clk, cpu lp clk)) { 
hp_stats_update (CONFIG NR CPUS, true); 
hp stats update(0, false); 
/* catch-upwith governor target speed */ 
tegra_cpu_set_speed_cap (NULL) ; 
} else ee Fe = 
queue_delayed_work ( 
— hotplug wq, &hotplug_work, down_delay) ; 
} 


break; 


切换 实际 上 就 发 生 在 clk_set_parent () 更 改 CPU 的 父 时 钟 里 面 ， 这 部 分 代码 写 得 比较 不 好 ，1 个 函数 完成 n 个 功能 ， 实 际 上 不 仅 切 换 了 时 钟 ， 还 切换 了 G 和 LP 集 群 : 


clk_set_parent (cpu_clk, cpu_lp_clk) -> 
tegra3_cpu_cmplx_clk_set_parent (structclk *c, struct clk *p) -> 
tegra_cluster_control(unsigned int us, unsigned int flags) -> 
tegra_cluster_switch_prolog()-> 
tegra_cluster_switch_epilog() 


3.G aS MER 


何 时 进行 G 核 的 动态 插 拔 ， 具 体 如 下 。 


[场景 3] 当前 执行 于 G 集 群 ，CPUFreq 驱 动 判断 出 某 G 核 需要 降 频率 到 低 于 低 值 门限 ， 即 TEGRA_HP_DOWN， 且 最 慢 的 CPUID 小 于 nr_cpu_ids (实际 上 等 价 于 还 有 两 个 或 两 个 以 上 的 G 核 活着 的 情 
况 ) ， 关 闭 最 慢 的 CPU， 留 意 tegra_get_slowest_ cpu_n () 不 会 返回 0， 这 意味 着 CPU0 要 么 活着 ， 要 么 切换 给 了 LP 核 ， 对 应 于 [场景 2] : 


caseTEGRA_HP DOWN: 
cpu= tegra_get_slowest_cpu_n(); 
if(cpu < nr cpu ids) {`~ 
up = false; 
queue delayed work ( 
~  hotplug_wq, &hotplug_work, down delay); 
hp_stats_update (cpu, false); 


[场景 4] 当前 执行 于 G 集 群 ，CPUFreq 驱 动 判断 出 某 G 核 需要 设置 频率 大 于 高 值 门限 ， 即 TEGRA_HP_UP， 如 果 负 载 平衡 状态 为 TEGRA_CPU_SPEED_BALANCED， 再 开 一 个 核 ; 如 果 状 态 为 
TEGRA_CPU_SPEED_SKEWED， 则 关 一 个 核 。TEGRA_CPU _SPEED_BALANCED 的 含义 是 当前 所 有 G 核 要 求 的 频率 都 高 于 最 高 频率 的 50%，TEGRA_CPU_SPEED_SKEWED 的 含义 是 当前 至 少 有 两 个 G 核 要 
求 的 频率 低 于 门限 的 25%， 即 CPU 频率 的 要 求 在 各 个 核 之 间 有 倾斜 。 


CaseTEGRA HP UP: 
if(is lp cluster() && !no lp) { 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
jelse { 
switch (tegra cpu speed balance()) { 
/* cpu speed is up and balanced - one more on-line */ 
case TEGRA CPU_SPEED BALANCED: 
cpu =cpumask next _zero(0, cpu_online mask); 
if (cpu <nr cpu ids) { ii ~ 
up =true; 
hp_stats_update(cpu, true); 
} 
break; 
/* cpu speed is up, but skewed - remove one core */ 
case TEGRA CPU SPEED SKEWED: 
cpu =tegra_get_slowest_cpu_n(); 
if(cpu < nr cpu ids) { 
up =false; 
hp_stats_update(cpu, false); 
} 
break; 
/* cpu speed is up, butunder-utilized - do nothing */ 
case TEGRA CPU_SPEED BIASED: 
default: 
break; 
} 


上 述 代码 中 TEGRA_CPU _SPEED_BIASED 路 径 的 含义 是 有 1 个 以 上 G 核 的 频率 低 于 最 高 频率 的 50% 但 是 还 未 形成 “SKEWED” 条 件 ， 即 只 是 “BIASED” ， 还 没有 达到 “SKEWED” 的 程度 ， 因 此 暂时 什 
么 都 不 做 。 


目前 ，ARM 和 Linux 社 区 都 在 从 事 关 于 big.LITTLE 架 构 下 ，CPU 热 插 拔 以 及 调度 器 方面 有 针对 性 的 改进 工作 。 在 big.LITTLE 架 构 中 ， 将 高 性 能 且 功 耗 也 较 高 的 Cortex-A15 和 稍 低 性 能 且 功 耗 低 的 Cortex- 
A7 进 行 了 结合 ,或 者 在 64 位 下 ， 进 行 Cortex-A57 和 Cortex-A53 的 组 合 ， 如 图 19.8 所 示 。 


big.LITTLE 架 构 的 设计 旨 在 为 适当 的 作业 分 配 恰当 的 处 理 器 。Cortex-A15 处 理 器 是 目前 已 开发 的 性 能 最 高 的 低 功 耗 ARM 处 理 器 ， 而 Cortex-A7 处 理 器 是 目前 已 开发 的 最 节能 的 ARM 应 用 程序 处 理 器 。 可 
以 利用 Cortex-A15 处 理 器 的 性 能 来 承担 繁重 的 工作 负载 ， 而 用 Cortex-A7 可 以 最 有 效 地 处 理智 能 手机 的 大 部 分 工作 负载 。 这 些 操作 包括 操作 系统 活动 、 用 户 界面 和 其 他 持续 运行 、 始 终 连接 的 任务 。 
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三 星 在 2013 年 CES (国际 消费 电子 展 ) 大 会 上 发 布 了 Exynos 5Octa 8 核 移动 处 理 器 ， 这 款 处 理 器 也 是 采用 big.LITTLE 架 构 的 第 一 款 CPU。 


19.9 挂 起 到 RAM 


Linux 支 持 STANDBY、 挂 起 到 RAM、 挂 起 到 硬盘 等 形式 的 待机 ， 如 图 19.9 所 示 。 一 般 的 嵌入 式 产 品 仅仅 只 实现 了 挂 起 到 RAM (也 简称 为 s2ram， 或 常 简称 为 STR) ， 即 将 系统 的 状态 保存 于 内 存 中 ， 并 
将 SDRAM 置 于 自 刷新 状态 ， 待 用 户 按键 等 操作 后 再 重新 恢复 系统 。 少 数 谋 入 式 Linux 系 统 会 实现 挂 起 到 硬盘 (简称 STD) ， 它 与 挂 起 到 RAM 的 不 同 是 s2ram 并 不 关机 ，STD 则 把 系统 的 状态 保持 于 磁盘 ， 然 
后 关闭 整个 系统 。 
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图 19.9 ”Linux 的 待机 模式 


在 Linux 下 ， 这 些 行 为 通常 是 由 用 户 空间 触发 的 ， 通 过 向 /sys/power/state 写 入 mem 可 开始 挂 起 到 RAM 的 流程 。 当 然 ， 许 多 Linux 产 品 会 有 一 个 按键 ,一 按 就 进入 挂 起 到 RAM。 这 通常 是 由 于 与 这 个 按 
键 对 应 的 输入 设备 驱动 汇报 了 一 个 和 电源 相关 的 input_event， 用 户 空间 的 电源 管理 daemon 进 程 收 到 这 个 事件 后 ， 再 触发 s2ram 的 。 当 然 ， 内 核 也 有 一 个 INPUT_APMPOWER 驱 动 ， 位 于 
drivers/input/apm-power.c 下 ， 它 可 以 在 内 核 级 别 侦 听 EV_PWR 类 事件 ， 并 通过 apm_queue_event (APM_USER SUSPEND) 自动 引发 s2ram: 


static void system power event (unsigned int keycode) 
{ 
switch (keycode) { 
Case KEY SUSPEND: 

apm queue event (APM USER SUSPEND); 

pr_info ("Requesting system suspendhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/0EBPS/Text/...\n"); 
break; 
default: 
break; 

} 


static void apmpower event (struct input handle *handle, unsigned int type, 
unsigned int code, int value) 


{ 
switch (type) { 
Case EV_PWR: 
system power event (code); 
break; = 
} 
} 


在 Linux 内 核 中 ， 大 致 的 挂 起 到 RAM 的 挂 起 和 恢复 流程 如 图 19.10 所 示 (牵涉 的 操作 包括 同步 文件 系统 、freeze 进 程 、 设 备 驱动 挂 起 以 及 系统 的 挂 起 入 口 等 ) 。 


在 Linux 内 核 的 device_driver 结 构 中 ， 含 有 一 个 pm 成 员 ， 它 是 一 个 dev_pm_ops 结 构 体 指针 ， 在 该 结构 体 中 ， 封 装 了 挂 起 到 RAM 和 挂 起 到 硬盘 所 需要 的 回调 函数 ， 如 代码 清单 19.13 所 示 。 


代码 清单 19.13 dev_pm_ops 结 构 体 


1 struct dev_pm_ops { 

2 int (*prepare) (struct device *dev); 

3 void (*complete) (struct device *dev); 

4 int (*suspend) (struct device *dev) ; 

5. int (*resume) (struct device *dev); 

6 int (*freeze) (struct device *dev); 

7 int (*thaw) (struct device *dev); 

8 int (*poweroff) (struct device *dev); 

9 int (*restore) (struct device *dev); 

10 int (*suspend_late) (struct device *dev); 
11 int (*resume_early) (struct device *dev); 
12 int (*freeze_late) (struct device *dev); 
13: int (*thaw_early) (struct device *dev); 
14 int (*poweroff late) (struct device *dev) ; 
15: int (*restore_early) (struct device *dev); 
16 int (*suspend_noirq) (struct device *dev) ; 
17 int (*resume_noirg) (struct device *dev); 


18 tt (FE: oirq) (st: device *dev) 

19 it. (* the irq) (stru Vice ) 

20 七 (*por ff_ noirqg) (struct devi dev) 
21 t (re noirg) (s devic dev) 
22 t (*runtime suspend) ( dev: dev) 
23 its. (a ime sume) ( devi dev) 
24 i Gè ~ im dle) ( vice dev) 
25}; 


图 19.10 实 际 上 也 给 出 了 在 挂 起 到 RAM 的 时 候 这 些 PM 回 调 函数 的 调用 时 机 。 
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图 19.10 ”Linux 挂 起 到 RAM 流 程 


目前 比较 推荐 的 做 法 是 在 platform_driver、i2c_driver 和 spi_driver 等 xxx_driver 结 构 体 实 例 的 driver 成 员 中 ， 以 上 述 结构 体 的 形式 封装 PM 回 调 函数 ， 并 赋值 到 driver 的 pm 字段 。 如 代码 清单 19.14 中 的 
第 50 行 ， 在 drivers/spi/spi-s3c64xx.c 中 ，platform_driver 中 的 pm 成 员 被 赋值 。 


代码 清单 19.14 ”设备 驱动 中 的 pm 成 员 


1#ifdef CONFIG PM SLEEP 
2static int s3c64xx_spi_suspend(struct device *dev) 


3{ 

4 struct spi_master *master = dev_get_drvdata (dev) ; 
5 struct s3c64xx_spi_driver_data *sdd = spi master get devdata (master) ; 
6 

7 int ret = spi master suspend (master) ; 

8 if (ret) T ~ 

9 return ret; 

10 

11 if (!pm_runtime_suspended(dev)) { 

12 clk disable unprepare (sdd->clk) ; 

13 clk_disable_unprepare (sdd->src clk); 

14 } 

15 

16 sdd->cur_speed = 0; /* 输出 时 钟 停止 */ 

17 

18 return 0; 

19} 

20 

2lstatic int s3c64xx_spi_resume(struct device *dev) 
22{ 


23 struct spi_master *master = dev get drvdata (dev) ; 
24 struct s3c64xx_spi_driver_data *sdd = spi_master_get_devdata (master) ; 
25 struct s3c64xx_spi_info *sci = sdd->cntrlr_info; 


26 

27 if (sci->cfg_gpio) 

28 sci->cfg_gpio(); 

29 

30 if (!pm_runtime_suspended(dev)) { 

31 clk_prepare_enable (sdd->src clk); 
32 clk_prepare_enable (sdd->clk) ; 

33: } 

34 

35 s3c64xx_spi_hwinit (sdd, sdd->port_id); 
36 

37 return spi_master_resume (master) ; 

38} 

39#endif /* CONFIG PM SLEEP */ 

40 


4lstatic const struct dev pm ops s3c64xx_spi_pm = { 

42 SET SYSTEM SLEEP PM OPS (s3c64xx_spi_suspend, s3c64xx_spi_resume) 
43 SET RUNTIME PM OPS (s3c64xx_spi_runtime_suspend, a 

44 s3c64xx spi runtime resume, NULL) 

45}; an ~ 

46 

47static struct platform driver s3c64xx_spi_driver = { 

48 .driver = { 


49 -name= "s3c64xx-spi", 

50 .pm = &s3c64xx_spi_pm, 

51 .of match table = of match ptr(s3c64xx spi dt match), 
52 }, 


53 .probe = s3c64xx_spi_probe, 
54 .remove = s3c64xx_spi_remove, 
55 .id table = s3c64xx_spi_driver_ids, 


s3c64xx_spi_suspend () 完成 了 时 钟 的 禁止 ，s3c64xx_spi_resume () 则 完成 了 硬件 的 
resume 等 成 员 函 数 的 赋值 : 


新 初始 化 、 时 钟 的 使 能 等 工作 。 第 42 行 的 SET_SYSTEM_SLEEP_PM_OPS 是 一 个 快捷 宏 ， 它 完成 suspend、 


#define SET _ SYSTEM SLEEP PM OPS (suspend fn, resume_fn) \ 
.Suspend = suspend_fn, \ 
.resume = resume fn, \ 
.freeze = suspend_fn, \ 
.thaw = resume fn, \ 
-poweroff = suspend fn, \ 
.restore = resume_fn, 


除了 上 述 推行 的 做 法 以 外 ， 在 platform_driver、i2c_driver、spi_driver 等 xxx_driver 结 构 体 中 仍然 保留 了 过 时 (Legacy) AJsuspend, resumeA DRA (目前 不 再 推荐 使 用 过 时 的 接口 ， 而 是 推荐 赋值 
xxx_driver 中 的 driver 的 pm 成 员 ) ， 壁 如 代码 清单 19.15 给 出 的 platform_driver 就 包含 了 过 时 的 suspend、resume 等 。 


代码 清单 19.15 ”设备 驱动 中 过 时 的 PM 成 员 函 数 


lstruct platform driver { 

int (*probe) (struct platform device *); 

int (*remove) (struct platform device *); 

void (*shutdown) (struct platform device *); 

int (*suspend) (struct platform device *, pm message t state); 
int (*resume) (struct platform device *); 

struct device_driver driver; 

const struct platform device id *id table; 


ONDUN 


在 Linux 的 核心 屋 中 ， 实 际 上 是 优先 选择 执行 xxx_driver.driver.pm.suspend () 成 员 函 数 ， 在 前 者 不 存在 的 情况 下 ， 执 行 过 时 的 xxx_driversuspend () ， 如 platform_pm_suspend () 的 逻辑 如 代码 
清单 19.16 所 示 。 


代码 清单 19.16 ”驱动 核心 层 寻找 PM 回 调 的 顺序 


lint platform pm suspend (struct device *dev) 

2{ 

3 struct device_driver *drv = dev->driver; 
4 int ret = 0; 


if (!drv) 
return 0; 


if (drv->pm) { 
if (drv—>pm->suspend) 
T1 ret = drv->pm->suspend (dev) ; 
12 } else { 
13 ret = platform legacy_suspend (dev, PMSG _ SUSPEND) ; 
14 } 


16 return ret; 


一 般 来 计 ， 在 设备 驱动 的 挂 起 入 口 函数 中 ， 会 关闭 设备 、 关 闭 该 设备 的 时 钟 输入 ， 甚 至 是 关闭 设备 的 电源 ， 在 恢复 时 则 完成 相反 的 的 操作 。 在 挂 起 到 RAM 的 挂 起 和 恢复 过 程 中 ， 系 统 恢复 后 要 求 所 有 设 


备 的 驱动 都 工作 正常 。 为 了 调试 这 个 过 程 ， 可 以 使 能 内 核 的 PM_DEBUG 选 项 ， 如 果 想 在 挂 起 和 恢复 的 过 程 中 ， 看 到 内 核 的 打印 信息 以 关注 


体 的 详细 流程 ， 可 以 在 Bootloader 传 递 给 内 核 的 bootargs 中 设 


置 标志 no_console_suspend。 


在 将 Linux 移 植 到 一 个 新 的 ARM SoC 的 过 程 中 ， 最 终 系统 挂 起 的 入 口 需 由 芯片 供应 商 在 相应 的 arch/arm/mach-xxx 中 实现 platform_suspend_ops 的 成 员 函 数 ， 一 般 主 要 实现 其 中 的 enter 和 valid 成 
员 ， 并 将 整个 platform_suspend_ops 结 构 体 通过 内 核 通用 API suspend_set_ops () 注册 进 系统 ， 如 arch/arm/mach-prima2/pm.c 中 prima2SoC 级 挂 起 流程 的 逻辑 如 代码 清单 19.17 所 示 。 


代码 清单 19.17 ”系统 挂 起 到 RAM 的 SoC 级 代码 


lstatic int sirfsoc pm enter (suspend state t state) 


2{ 

3 switch (state) { 

4 case PM_SUSPEND_MEM: 

5 Sirfsoc Pre_suspend _ Power off(); 
6 

7 outer_flush_all(); 

8 outer disable (); 

9 /* go zzz */ 

10 cpu_suspend(0, sirfsoc_finish suspend) ; 
11 outer_resume () ; = ~ 
12 break; 

13 default: 

14 return -EINVAL; 

15 } 

16 return 0; 

17 3 

18 

19 static const struct platform_suspend_ops sirfsoc pm ops = { 
20 ¿enter = sirfsoc_pm 4 enter, 

21 -valid = suspend valid only mem, 

22 }; 

23 

24 int _ init sirfsoc_pm_init (void) 

25 { 

26 suspend_set_ops (&sirfsoc_pm_ops) ; 

27 return 0; ` oan 

28 } 


上 述 代码 中 第 5 行 的 sirfsoc_pre_suspend_power_off () 的 实现 如 代码 清单 19.18 所 示 ， 它 会 将 系统 恢复 回来 后 重新 开始 执行 的 物理 地 址 存 入 与 SoC 相 关 的 寄存 器 中 。 与 本 例 对 应 的 寄存 器 为 
SIRFSOC_PWRC_SCRATCH_PAD1， 并 向 该 寄存 器 写 入 了 virt_to_phys (cpu_resume) 。 在 系统 重新 恢复 中 ， 会 执行 cpu_resume 这 段 汇编 ， 并 进行 设置 唤醒 源 等 操作 。 


代码 清单 19.18 ”SoC 设置 恢复 回来 时 的 执行 地 址 


lstatic int sirfsoc pre suspend power off (void) 
u32 wakeup entry = virt to phys (cpu_resume) ; 


sirfsoc rtc iobrg writel (wakeup entry, sirfsoc pwrc base + 
SIRFSOC ] PWRC_SCRATCH_PAD1) ; 


sirfsoc_set_wakeup source () 7 


2 
3 
5 
6 
7 
8 
9 
10 sirfsoc_set_sleep_mode (SIRFSOC DEEP SLEEP MODE) ; 
11 
12 return 0; 

13} 


而 cpu_suspend (0, sirfsoc_finish_ suspend) 以 及 其 中 调用 的 与 SoC 相 关 的 用 汇编 实现 的 函数 sirfsoc finish suspend () 真正 完成 最 后 的 待机 并 将 系统 置 于 深度 睡眠 ， 同 时 置 SDRAM 于 自 刷新 状态 
的 过 程 ， 具 体 的 代码 高 度 依赖 于 特定 的 芯片 ， 其 实现 一 般 是 一 段 汇编 。 


19.10 ”运行 时 的 PM 


在 前 文 给 出 的 dev_pm_ops 结 构 体 中 ， 有 3 个 以 runtime 开 头 的 成 员 函 数 : runtime_suspend () 、runtime resume () 和 runtime idle () ， 它 们 辅助 设备 完成 运行 时 的 电源 管理 


struct dev pm ops { 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/0EBPS/Text/. 
int (*runtime » suspend) (struct device *dev); 
int (*runtime resume) (struct device *dev); 
int (*runtime_idle) (struct device *dev); 
http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


运行 时 的 PM 与 前 文 描述 的 系统 级 挂 起 到 RAM 时 候 的 PM 不 太一 样 ， 它 是 针对 单个 设备 ， 指 系统 在 非 睡 眠 状态 的 情况 下 ， 某 个 设备 在 空闲 时 可 以 进入 运行 时 挂 起 状态 ， 而 在 不 是 空闲 时 执行 运行 时 恢复 使 


得 设备 进入 正常 工作 状态 ， 如 此 ， 这 个 设备 在 运行 时 会 省 电 。Linux 运 行 时 PM 最 早 是 在 Linux2.6.32 内 核 中 被 合并 的 。 


Linux 提 供 了 一 系列 AP1， 以 便于 设备 可 以 声明 自己 的 运行 时 PM 状 态 : 


int pm_runtime_suspend(struct device *dev); 


引发 设备 的 挂 起 ， 执 行 相关 的 runtime_suspend () 函数 。 


int pm schedule suspend (struct device *dev, unsigned int delay); 


“调度 ”设备 的 挂 起， 延迟 delay 毫 秒 后 将 挂 起 工作 挂 入 pm_wq 等 待 队列 ， 结 果 等 价 于 delay 毫 秒 后 执行 相关 的 runtime_suspend () 函数 。 


int pm_request_autosuspend(struct device *dev); 


“调度 ”设备 的 挂 起 ， 自 动 挂 起 的 延迟 到 后 ， 挂 起 的 工作 项 目 被 自动 放 入 队列 。 


int pm runtime resume (struct device *dev) ; 


引发 设备 的 恢复 ， 执 行 相关 的 runtime_resume () 函数 。 


int pm request resume (struct device *dev); 


发 起 一 个 设备 恢复 的 请 求 ， 该 请 求 也 是 挂 入 pm_wq 等 待 队列 。 


int pm_runtime_idle(struct device *dev); 


引发 设备 的 空闲 ， 执 行 相关 的 runtime idle () 函数 。 


int pm request_idle (struct device *dev); 


发 起 一 个 设备 空闲 的 请 求 ， 该 请 求 也 是 挂 入 pm_wq 等 待 队列 。 


void pm runtime_enable (struct device *dev) ; 


使 能 设备 的 运行 时 PM 支持 。 


int pm_runtime_disable(struct device *dev); 


禁止 设备 的 运行 时 PM 支持 。 


int pm runtime get (struct device *dev); 
int pm runtime_get_sync (struct device *dev); 


增加 设备 的 引用 计数 (usage_count) ， 这 类 似 于 clk_get () ， 会 间接 引发 设备 的 runtime resume () 。 


int pm runtime_put (struct device *dev); 
int pm_runtime_put_sync(struct device *dev) 


减 小 设备 的 引用 计数 ， 这 类 似 于 clk_put () ， 会 间接 引发 设备 的 runtime idle () 。 


我 们 可 以 这 样 简单 地 理解 Linux 运 行 时 PM 的 机 制 ， 每 个 设备 (总 线 的 控制 器 自身 也 属于 一 个 设备 ) 都 有 引用 计数 usage_count 和 活跃 子 设备 (Active Children ， 子 设备 的 意思 就 是 该 级 总 线 上 挂 的 设 
备 ) 计数 child_count， 当 两 个 计数 都 为 0 的 时 候 ， 就 进入 空闲 状态 ， 调 用 pm_request idle (dev) 。 当 设备 进入 空闲 状态 ， 与 pm_request idle (dev) 对 应 的 PM 核 并 不 一 定 直接 调用 设备 驱动 的 
runtime_suspend () ， 它 实际 上 在 多 数 情况 下 是 调用 与 该 设备 对 应 的 bus_ type 的 runtime idle () 。 下 面 是 内 核 的 代码 逻辑 : 


static pm_callback_t _ rpm get_callback (struct device *dev, size_t cb_offset) 


{ 

pm_callback_t cb; 

const struct dev_pm_ops *ops; 

if (dev->pm domain) 

ops = &dev->pm domain->ops; 

else if (dev->type && dev->type->pm) 
ops = dev->type->pm; 

else if (dev->class && dev->class->pm) 
ops = dev->class->pm; 

else if (dev->bus && dev->bus->pm) 
ops = dev->bus->pm; 


else 

ops = NULL; 

if (ops) 

cb = *(pm_callback t *) ((void *)ops + cb offset); 
else > 3 

cb = NULL; 


if (!cb && dev->driver && dev->driver->pm) 
cb = *(pm_callback_t *) ((void *)dev->driver->pm + cb_offset); 
return cb; 


} 


据 此 可 知 ，bus type 级 的 回调 函数 实际 上 可 以 被 pm_domain、type、class 覆 盖 掉 ， 这 些 都 统称 为 子 系统 。bus_ type 等 子 系统 级 别 的 runtime idle () 行为 完全 由 相应 的 总 线 类 型 、 设 备 分 类 和 
pm_domain 因 素 决定 ， 但 是 一 般 的 行为 是 子 系统 级 别 的 runtime_ idle () 会 调度 设备 驱动 的 runtime_suspend () 。 


在 具体 的 设备 驱动 中 ， 一 般 的 用 法 则 是 在 设备 驱动 probe () 时 运行 pm_runtime_enable () 使 能 运行 时 PM 支 持 ， 在 运行 过 程 中 动态 地 执行 “pm_runtime_get xxx () -> 做 工作 - 
>pm_runtime_put_xxx () ”的 序列 。 如 代码 清单 19.19 中 的 drivers/watchdog/omap_wdt.c OMAP 的 看 门 狗 驱 动 。 在 omap_wdt_start () 中 启动 了 pm_runtime _get sync () ， 而 在 
omap wdt stop () 中 调用 了 pm_runtime put sync () 。 


代码 清单 19.19 ”运行 时 PM 的 pm_runtime_get () 和 pm_runtime_put () 


lstatic int omap_wdt_start (struct watchdog_device *wdog) 


2{ 

3 struct omap_wdt_dev *wdev = watchdog_get_drvdata (wdog) ; 
4 void __iomem *base = wdev->base; 

5 

6 mutex_lock (&wdev->lock) ; 

7 

8 wdev->omap_wdt_users = true; 

9 

10 pm_runtime_get_sync (wdev->dev) ; 

11 

12 /* initialize prescaler */ 

13 while (readl_relaxed(base + OMAP_WATCHDOG WPS) & 0x01) 
14 cpu_relax(); 

15 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
16 mutex_unlock (&wdev->lock) ; 

NT, 

18 return 0; 

19} 

20static int omap_wdt_stop(struct watchdog_device *wdog) 

21{ 


22 struct omap_wdt_dev *wdev = watchdog_get_drvdata (wdog) ; 


23 


24 mutex lock (&wdev->lock) ; 

25 omap wdt disable (wdev) ; 

26 pm runtime put_ sync (wdev->dev); 

27 wdev->omap wdt users = false; 

28 mutex unlock (&wdev->lock) ; 

29 return 0; 

30} 

31 

32static const struct watchdog_ops omap_wdt_ops = { 
33 „owner = THIS MODULE, 

34 start = omap y wdt_start, 

35 .Stop = omap wdt stop, 

36 .ping = omap wdt ping, 

37 .Set timeout = omap_wdt_set_timeout, 
38}; 


上 述 代码 第 10 行 的 pm_runtime_get_sync (wdev->dev) 告诉 内 核 


恢复 ; 第 26 行 告诉 内 核 不 用 这 个 设备 了 ， 如 果 引 


在 某 些 设备 驱动 中 ， 直 接 使 


F 


计数 变 为 0 且 活 跃 子 设备 为 0%， 则 导致 该 看 门 狗 设备 的 运行 时 挂 起 。 


述 引用 计数 的 方法 进行 挂 起、 空闲 和 恢复 不 一 定 合适 ， 因 为 挂 起 状态 的 进入 和 恢复 需 


的 开销 。 因 此 ， 我 们 可 根据 情况 决定 只 有 设备 在 空 
式 进行 编程 。 


在 执行 操作 的 时 候 声明 pm_runtime_get () 


关 runtime_suspend () 入 口 函数 的 调用 。 一 个 典型 用 法 如 代码 清单 19.20 所 示 。 


代码 清单 19.20 ”运行 时 PM 的 自动 挂 动 


始 用 看 门 狗 这 个 设备 了 ， 如 果 看 门 狗 设备 已 经 进入 


要 一 些 时 


闲 了 一 段 时间 后 才 进入 挂 起 (一般 来 说 ， 一 个 一 段 时 间 没有 被 使 用 的 设备 ， 还 会 有 一 段 时 间 不 会 被 使 


省 电 模式 (之 前 引用 计数 为 0 且 执 行 了 运行 时 挂 起 ) ， 会 导致 该 设备 的 运行 时 


间 ， 如 果 设备 不 在 挂 起 之 间 保留 一 定 的 时 间 ， 频 繁 进出 挂 起 反而 会 带 来 新 


) ， 基 于 此 ， 一 些 设备 驱动 也 常常 使 用 自动 挂 动 模 


， 操 作 完 成 后 执行 pm_runtime_mark_last_busy () 和 pm_runtime_put_autosuspend () ， 一 旦 自动 挂 动 的 延 时 到 期 且 设 备 的 使 用 计数 为 0， 则 引发 相 


lfoo read or write (Struct foo priv *foo, 


void *data) 


2{ 
3 lock (&£00->private_lock) ; 
4 add_request_to_io queue (foo, data); 
5. if (foo->num_pending_requests++ == 0) 
6 pm_runtime_get (&f00->dev) ; 
7 if (!foo->is_suspended) 
8 foo_process_next_request (£00) ; 
9 unlock (&foo->private lock); 
10} 
11 
12f00_io_completion(struct foo priv *foo, void *req) 
134 
14 lock (&f00->private_lock) ; 
i5 if (--foo->num pending_requests == 0) { 
16 pm_runtime mark last_busy (&foo->dev) ; 
17 pm runtime put_autosuspend (&foo->dev) ; 
18 } else { 
19 foo_process_next_request (foo); 
20 } 
21 unlock (&fo0->private_lock) ; 
22 /* 将 请 求 结果 返回 给 用 户 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... */ 
23} 


在 上 述 代 码 的 第 6 行 开始 进行 |/O 传 输 了 ， 因 此 运行 了 pm_runtime_get () 之 后 ， 当 MO 传输 结束 的 时 候 ， 第 16~17 行 向 内 核 告知 该 设备 最 后 的 忙 时 刻 ， 并 执行 了 


pm_runtime_put_autosuspend () 。 


设备 驱动 PM 成 员 的 runtime_suspend () 一 般 完成 保存 上 下 文 、 切 到 省 电 模式 的 工作 ， 而 runtime_resume () 一 般 完成 对 硬件 上 电 、 恢 复 上 下 文 的 工作 。 代 码 清单 19.21 给 出 了 一 个 drivers/spi/spi- 


pl022.c 的 案例 。 


代码 清单 19.21 ”运行 时 PM 的 runtime_suspe 


nd/resume () 案例 


1#ifdef CONFIG PM 


2static int pl022_runtime_suspend (struct device *dev) 


3{ 

4 struct pl022 *pl022 = dev_get_drvdata (dev) ; 

5 

6 clk_disable_unprepare (p1022->c1k) ; 

7 pinctrl_pm_select_idle state (dev) ; 

8 

9 return 0; 

10} 

11 

12static int pl022_runtime_resume(struct device *dev) 
13{ 

14 struct pl022 *pl022 = dev_get_drvdata (dev) ; 
15 

16 pinctrl_pm_select_default_state (dev) ; 

17 clk_prepare_enable (p1022->clk) ; 

18 

19 return 0; 

20} 

21#endif 

22 

23static const struct dev pm ops pl022 dev pm ops = { 
24 SET_SYSTEM SLEEP PM OPS (p1022 suspend, p1022 resume) 
25 SET 1 RUNTIME. 1 PM | OPS (p1022 _ runtime_suspend, p1022 runtime resume, NULL) 


26}; 


第 25 行 的 SET_RUNTIME_PM_OPS () 是 一 个 快捷 宏 ， 它 完成 了 runtime_suspend、runtime_resume 的 赋值 动作 ， 


其 定义 如 下 : 


#define SET RUNTIME PM OPS (suspend fn, resume fn, idle fn) 


.runtime suspend = suspend fn, \ 
.runtime resume = resume_fn, \ 
-runtime_idle = idle fn, 


捷 的 宏 : 


H£, 除了 SET RUNTIME_PM_OPS () 和 前 文 介绍 的 SET SYSTEM _SLEEP_PM_OPS () ， 在 include/linux/pm.h 中 还 定义 了 SIMPLE_DEV_PM_OPS () 、UNIVERSAL DEV_PM_OPS () Ek 


#define SIMPLE DEV PM OPS (name, suspend fn, resume_fn) \ 


const struct dev_pm ops name = { \ 


SET_SYSTEM SLEEP PM OPS (suspend fn, resume_fn) \ 


} 


#define UNIVERSAL DEV_PM OPS (name, suspend fn, resume_fn, idle fn) \ 


const struct dev_pm Ops name = { \ 


SET SYSTEM SLEEP PM OPS (suspend fn, resume_fn) \ 
SET 1 RUNTIME. | PM { OPS (Suspend _ fn, resume_fn, idle »_fn) \ 


在 内 核 里 充斥 着 这 些 宏 的 使 用 例子 。 我 们 从 UNIVERSAL_ DEV PM_OPS () 这 个 宏 的 定义 可 以 看 出 ， 它 针对 的 是 挂 起 到 RAM 和 运行 时 PM 行为 一 致 的 场景 。 


19.11 总 结 


Linux 内 核 的 PM 框架 涉及 众多 组 件 ， 弄 清楚 这 些 组 件 之 间 的 依赖 关系 ， 在 合适 的 着 眼 点 上 进行 优化 , K 


正确 的 方法 进行 PM 的 编程 ， 对 改善 代码 的 质量 、 辅 助 功 耗 和 性 能 测试 都 有 极 大 的 好 处 。 


另外 ， 在 实际 工程 中 ， 尤 其 是 在 消费 电子 的 领域 ， 可 能 有 超过 半数 的 bug 都 属于 电源 管理 。 这 个 时 候 ， 电 源 管 理 的 很 多 工作 就 是 在 搞定 鲁 棒 性 和 健壮 性 ， 可 以 说 ， 在 很 多 时 候 ， 这 就 是 个 体力 活 ， 需 要 


工程 师 有 足够 的 耐性 。 


本 章 导 读 


第 20 章 ”Linux 蕊 片 级 移植 及 底层 驱动 


本 章 主要 讲解 ， 在 一 个 新 的 ARM SoC 上 ， 如 何 移植 Linux。 当 然 ， 本 章 的 内 容 也 适合 MIPS、PowerPC 等 其 他 的 体系 结构 。 


第 20.1 节 先 总 体 上 介绍 了 Linux 3.x 之 后 的 内 核 在 底层 BSP 上 进行 了 哪些 优化 。 


第 20.2 节 讲解 了 如 何 提供 操作 系统 的 运行 节拍 。 


第 20.3 节 讲解 了 中 断 控制 器 驱动 ， 以 及 它 是 如 何 为 驱动 提供 标准 接口 的 。 


第 20.4 节 讲解 多 核 SMP 芯 片 的 启动 。 


第 20.6~20.9 节 分 别 讲解 了 作为 Linux 运 行 底 


层 基础 设施 的 GPIO、pinctrl、 时 钟 和 dmaengine 驱 动 。 


学 习 本 章 有 助 于 工程 师 理解 驱动 调用 的 底层 AP 


的 来 源 ， 以 及 直接 进行 Linux 的 平台 移植 。 


20.1 ARM Linux 底 层 驱动 的 组 成 和 现状 


为 了 让 Linux 在 一 个 全 新 的 ARM SoC 上 运行 ， 需 要 提供 大 量 的 底 
断 控制 器 、SMP 启 动 和 CPU 热 插 拔 这 几 部 分 相对 来 说 没有 像 早期 GPIO、 时 钟 、pinctrl 和 DMA 的 实现 那么 杂乱 ， 基 本 上 有 个 
定时 器 提供 支撑 ， 中 断 控 制 器 的 驱动 则 使 得 Linux 内 核 的 工程 师 可 以 直接 调 有 


热 插 拔 则 运行 运行 时 挂 载 或 拔除 CPU。 这 些 工 作 ， 在 Linux 3.0 之 后 的 内 核 中 ，Linux 社 区 对 比 逐 步 进行 了 良好 的 


local_irq_disable () 、disable irq () 等 通 


层 支 撑 ， 如 定时 器 节拍 、 中 断 控制 器 、SMP 启 动 、CPU 热 播 拔 以 及 底 


层 的 GPIO、 时 钟 、pinctrl 和 DMA 硬 件 的 封装 等 。 定 时 器 节拍 、 中 
固定 的 套路 。 定 时 器 节拍 为 Linux 基 于 时 间 片 的 调度 机 制 以 及 内 核 和 用 户 空间 的 


层次 划分 和 


的 中 断 AP1， 而 SMP 启 动 支持 则 
架构 设计 。 


于 让 SoC 内 部 的 多 个 CPU 核 都 投入 运行 ，CPU 


在 GPIO、 时 钟 、pinctrl 和 DMA 驱 动 方面 ， 在 Linux 2.6 时 代 ， 内 核 已 或 多 或 少 有 GPIO、 时 钟 等 底层 驱动 的 架构 ， 但 是 核心 层 的 代码 太 薄弱 ， 各 SoC 在 这 些 基础 设施 实现 方面 存在 巨大 差异 ， 而 且 每 个 
SoC 仍 然 需要 实现 大 量 的 代码 。pinctrl 和 DMA 则 最 为 混乱 ， 几 乎 各 家 公司 都 定义 了 自己 独特 的 实现 和 APl。 


社区 必须 改变 这 种 局 面 ， 于 是 Linux 社 区 在 2011 年 后 进行 了 如 下 工作 ， 这 些 工作 在 目前 的 Linux 内 核 中 基本 准备 就 绪 : 


+ STEricsson 公 司 的 工程 师 Linus Walleij 提 供 了 新 的 pincttl 驱 动 架构 ， 内 核 中 新 增加 一 个 drivers/pincttl 目 录 ， 支 撑 SoC 上 的 引 脚 复 用 ， 各 个 SoC 的 实现 代码 统一 放 入 该 目录 。 


< TI 公司 的 工程 师 Mike Turquette 提 供 了 通过 时 钟 框架 ， 让 具体 SoC 实 现 clk_ops () 成 员 函 数 ， 并 通过 clk_register () 


一 迁移 到 drivers/clk 目 录 中 。 


、clk_registet_clkdev () 注册 时 钟 源 以 及 源 与 设备 的 对 应 关系 ， 有 具体 的 时 钟 驱动 都 统 


“ 建议 各 SoC 统 一 采用 dmaengine 架 构 实 现 DMA 了 驱动 ， 该 架构 提供 了 通用 的 DMA 通 道 API， 如 dmaengine_prep_slave_single () 、dmaengine_submit () 等 ， 要 求 SoC 实 现 dma_device 的 成 员 函 数 ， 实 现代 码 统 


一 放 入 drivers/dma 目 录 中 。 


“ 在 GPIO 方 面 ，drivers/gpio 下 的 gpiolib 已 能 与 新 的 pinctdl 完 美 共存 ， 实 现 引 脚 的 GPIO 和 其 他 功能 之 间 的 复 用 ， 具 体 的 SoC 只 需 实现 通用 的 gpio_chip 结 构 体 的 成 员 函 数 。 


经 过 以 上 工作 ， 基 本 上 就 把 芯片 底 


一 个 设备 要 的 时 钟 、pinmux3 


除了 上 述 基础 设施 以 外 ， 在 将 Linux 移 植 入 新 的 SoC 过 程 中 ， 工 程 师 常常 强烈 依赖 了 


或 


Ni 


| 脚 以 及 GPIO。 


本 章 主 要 对 上 述 各 个 组 成 部 分 进行 架构 上 的 剖析 以 及 对 关键 的 实现 部 分 的 实例 分 析 ， 以 求 完整 归纳 出 将 Linux 移 植 入 新 SoC 的 主要 工作 。 


20.2 内核 节 拍 驱动 


Linux 2.6 的 早期 (Linux2.6.21 之 前 ) 内 核 是 基于 节拍 设计 的 ， 一 般 SoC 公 司 在 将 Linux 移 植 到 
层 的 timer tick () 函数 ， 从 而 引发 系统 


时 ， 调 用 ARM Linux 内 核 核 心 


代码 清单 20.1 早期 内 核 的 节拍 驱动 


1/* 


2 * IRQ handler for the timer 
3 */ 


Astatic irgreturn t 


5s3c2410_timer interrupt (int irq, void *dev_id, struct pt_regs *regs) 


层 基础 架构 方面 的 驱动 架构 统一 了 ， 实 现 方法 也 统一 了 。 另 外 ， 目 前 GPIO、 时 钟 、pinmux 等 都 能 良好 地 进行 设备 树 的 映射 处 理 ， 辟 如 我 们 可 以 方便 地 在 .dts 中 定义 


早期 的 printk 功 能 ， 内 核 则 提供 了 相关 的 DEBUG_LL 和 EARLY_PRINTK 支 持 ， 只 需要 SoC 提 供 商 实现 少量 的 回调 函数 


己 芯 片上 的 时 候 ， 会 从 芯片 内 部 找 一 个 定时 器 ， 并 将 该 定时 器 配置 为 赫兹 的 频率 ， 在 每 个 时 钟 节拍 到 来 
有 的 一 系列 行为 。 如 Linux 2.6.17 中 arch/arm/mach-s3c2410/time.c 的 做 法 类 似 于 代码 清单 20.1 所 示 。 


6{ 


7 write _seqlock (&xtime lock); 

8 timer tick(regs); ` 

9 write sequnlock (&xtime_lock); 
10 return IRQ HANDLED; ` 

11} 

12 


13static struct irgaction s3c2410_timer_irq = { 


14 .name = "S3C2410 Timer Tick", 

15 . flags SA_INTERRUPT | SA_TIMER, 
16 handler = s3c2410_timer_interrupt, 
i7}; 

18static void _ init s3c2410 timer init (void) 

19{ 

20 s3c2410_timer_setup () 7 

21 setup_irg(IRQ_TIMER4, &s3c2410 timer irq); 
22} 


代码 清单 20.1 将 硬件 的 TIMER4 定 时 器 配置 为 周期 触发 中 断 ， 每 个 中 断 到 来 就 会 自动 调用 内 核 函 数 timer tick () . 


当前 Linux 多 采用 无 节拍 方案 ， 并 支持 高 精度 定时 器 ， 内 核 的 配置 一 般 会 使 能 NO_HZ ( 即 无 节拍 ,或 者 说 动态 节拍 ) 和 HIGH_RES_TIMERS。 要 强调 的 是 无 节拍 并 不 是 说 系统 中 没有 时 钟 节拍 ， 而 是 说 


这 个 节拍 不 再 像 以 前 那样 周期 性 地 产生 。 无 节拍 意味 着 ， 根 


Jl 


局 系统 的 运行 情况 ， 以 对 


件 驱动 的 方式 动态 决定 下 一 个 节拍 在 何 时 发 生 。 如 果 画 一 个 时 间 轴 ， 周 期 节拍 的 系统 节拍 中 断 发 生 的 时 序 如 图 20.1 所 


图 20.1 周期 节拍 的 系统 节拍 中 断 发 生 的 时 序 


而 NO_HZ 的 Linux 的 运行 节拍 如 图 20.2 所 示 ， 看 起 来 则 是 : 两 次 定时 器 中 断 发 生 的 时 间 间 隔 可 长 可 短 : 


20.2 ”NO_HZ 的 运行 节拍 


在 当前 的 Linux 系 统 中 ，SoC 底 层 的 定时 器 被 实现 为 一 个 clock_event_device 和 clocksource 形 式 的 驱动 。 在 clock_event_device 结 构 体 中 ， 实 现 其 set mode () 和 set_next_event () 成 员 函 数 ; 在 
clocksource 结 构 体 中 ， 主 要 实现 read () 成 员 函 数 。 而 在 定时 器 中 断 服务 程序 中 ， 不 再 调用 timer tick () ， 而 是 调用 clock_event_device 的 event_handler () 成 员 函 数 。 一 个 典型 SoC 的 底层 节拍 定时 


器 驱动 形 如 代码 清单 20.2 所 示 。 


代码 清单 20.2 新 内 核 基于 clocksource 和 clock_event 的 节拍 驱动 


lstatic irqreturn t xxx_timer_interrupt (int irq, 


2{ 

3 struct clock_event_device *ce = dev_id; 
4 aot 

5 ce->event_handler (ce) ; 

6 

7 return IRQ HANDLED; 

8} 

9 


10/* read 64-bit timer counter */ 


void *dev_id) 


llstatic cycle 七 xxx_timer_read(struct clocksource *cs) 


12{ 

13 u64 cycles; 

14 

15 /* read the 64-bit timer counter */ 

16 cycles = readl_relaxed(xxx_timer base + LATCHED HI); 
17 cycles= (cycles<<32) |readl_relaxed(xxx_timer_base + LATCHED LO); 
18 

19 return cycles; 

20} 

21 

22static int xxx_timer_set_next_event (unsigned long delta, 
23 struct clock_event_device *ce) 

24{ 

25 unsigned long now, next; 

26 now = readl_ relaxed(xxx timer base + LATCHED LO); 
27 next = now + delta; ~ T ~ 

28 writel relaxed(next, xxx_timer base + SIRFSOC_TIMER MATCH 0); 
29 http: /7www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
30} 

31 

32static void xxx timer set mode(enum clock event mode mode, 
33 struct Clock event device *ce) i 7 

34{ 

35 switch (mode) { 

36 case CLOCK EVT MODE PERIODIC: 

37 Ei 

38 case CLOCK EVT MODE ONESHOT: 

39 ay 

40 case CLOCK EVT MODE SHUTDOWN: 

41 sii 

42 case CLOCK EVT MODE UNUSED: 

43 case CLOCK EVT MODE RESUME: 

44 break; 

45 } 

46} 

47static struct clock_event_device xxx_clockevent = { 

48 .name = "xxx clockevent", 

49 .rating = 200, 

50 .features = CLOCK EVT FEAT ONESHOT, 

51 .Set mode = xxx timer set mode, 

52 .Set next event = xxx_timer_set_next_event, 

53}; 

54 

55static struct clocksource xxx_clocksource = { 

56 .name = "xxx_clocksource", 

57 .rating = 200, 

58 .mask = CLOCKSOURCE_MASK (64), 

59 .flags = CLOCK _SOURCE_IS CONTINUOUS, 


60 -vead = xxx_timer_read, 


61 -suspend = xxx_clocksource_suspend, 


62 -resume = XXX í Clocksource > resume, 

63}; 

64 

65static struct irgaction xxx timer_irq = { 

66 .name = "xxx tick", 

67 .flags = IRQF TIMER, 

68 .irq = 0, 

69 -handler = xxx_timer interrupt, 

70 -dev_id = &xxx - clockevent, 

71}; 

72 

73static void _ init xxx_clockevent_init (void) 

74{ 

75 clockevents_calc_mult_shift (&xxx_clockevent, CLOCK_TICK_RATE, 60); 
76 

77 xxx _clockevent.max delta ns = 

78 clockevent -delta2ns (- 2, &xxx Clockevent); 
79 xxx_clockevent.min_delta_ns = = 

80 clockevent .delta2ns (2, &xxx clockevent); 
81 

82 xxx Clockevent.cpumask = cpumask of (0); 

83 clockevents_register_device (&xxx_clockevent) ; 
84} 

85 


86/* initialize the kernel jiffy timer source */ 
87static void _ init xxx_timer_init (void) 


88{ 

89 

90 BUG_ON(clocksource_register_hz(&xxx_clocksource, CLOCK TICK RATE)); 
91 BUG ( 3 ON (setup 1 irq (Xxx i timer irq. irq, EXXX | timer ~_irq)); 

92 XXX í - clockevent _init(); 

93} 


Ee Sys timer xxx_timer = { 
init = XXX 1 timer init, 
96); 


在 上 述 代 码 中 ， 我 们 特别 关注 如 下 的 函数 : 


1.clock_event_device 的 set_next_event 成 员 函 数 xxx_timer_set_next_event () 


该 函数 的 delta 参 数 是 Linux 内 核 传递 给 底层 定时 器 的 一 个 差 值 ， 它 的 含义 是 下 一 次 节拍 中 断 产生 的 硬件 定时 器 中 计数 器 的 值 相对 于 当前 计数 器 的 差 值 。 我 们 在 该 函数 中 将 硬件 定时 器 设置 为 在 “当前 计 
数 器 计数 值 +delta” 的 时 刻 产 生 下 一 次 节拍 中 断 。xxx_clockevent_init () 函数 中 设置 了 可 接受 的 最 小 和 最 大 delta 值 对 应 的 纳 秒 数 ， 即 xxx_clockevent.min_delta_ns 和 xxx_clockevent.max_delta_ns。 


2.clocksource 的 read 成 员 函 数 xxx timer_ read () 


该 函数 可 读 取出 从 开机 到 当前 时 刻 定时 器 计数 器 已 经 走 过 的 值 ， 无 论 有 没有 设置 当 计数 器 达到 某 值 时 产生 中 断 ， 硬 件 的 计数 总 是 在 进行 的 (我 们 要 理解 ， 计 数 总 是 在 进行 ， 而 计数 到 某 值 后 要 产生 中 断 
需要 软件 设置 ) 。 函数 给 Linux 系 统 提供 了 一 个 底层 的 准确 的 参考 时 间 。 


3. 定 时 器 的 中 断 服务 程序 xxx_timer_interrupt () 


在 该 中 断 服务 程序 中 ， 直 接 调 用 clock_event_device 的 event_handler () 成 员 函 数 ，event_handler () 成 员 函 数 的 具体 工作 也 是 Linux 内 核 根据 Linux 内 核 配 置 和 运行 情况 自行 设置 的 。 


4.clock_event_device 的 set_ mode 成 员 函 数 xxx timer set mode () 


于 设置 定时 器 的 模式 以 及 恢复 、 关 闭 等 功能 ， 目 前 一 般 采 用 ONESHOT 模 式 ， 即 一 次 一 次 产生 中 断 。 当 然 新 版 的 Linux 也 可 以 使 用 老 的 周期 性 模式 ， 如 果 内 核 在 编译 的 时 候 未 选择 NO_HZ， 该 底层 的 
定时 器 驱动 依然 可 以 为 内 核 的 运行 提供 支持 。 


这 些 函 数 的 结合 使 得 ARM Linux 内 核 底层 所 需要 的 时 钟 得 以 运行 。 下 面 举 一 个 典型 的 场景 ， 假 定 定时 器 的 晶振 时 钟 频率 为 1MHz ( 即 计 数 器 每 加 1 等 于 1hs) ， 应 用 程序 通过 nanosleep () APIR 
100hs， 内 核 会 据 此 换算 出 下 一 次 定时 器 中 断 的 delta 值 为 100， 并 间接 调用 xxx_timer_set_next_event () 去 设置 硬件 让 其 在 100hs 后 产生 中 断 。100hs 后 ， 中 断 产生 ，xxx_timer_interrupt () 被 调 
, event_handler () 会 间接 唤醒 睡眠 的 进程 并 导致 nanosleep () 函数 返回 ， 从 而 让 用 户 进程 继续 。 


这 里 要 特别 强调 的 是 ， 对 于 多 核 处 理 器 来 说 ， 一 般 的 做 法 是 给 每 个 核 分 配 一 个 独立 的 定时 器 ， 各 个 核 根据 自身 的 运行 情况 动态 地 设置 自己 时 钟 中 断 发 生 的 时 刻 。 看 一 下 我 们 所 运行 的 ARM vexpress 的 中 
断 (GIC 29twd) 即 知 : 


# cat /proc/interrupts 
UI 


CPUL CPU2 CPU3 
29% 1548 1511 1501 1484 GIC 29 twd 
34: pi 0 0 0 GIC 34 timer 
36: 0 0 0 0 GIC 36 rtc-pl031 
Ji 162 21 2 27 GIC 37 uart-pl011 
41: 88 105 149 121. GIC 41 mmci-pll8x (cmd) 
42: 5449 5443 5450 5863 GIC 42 mmci-pl18x (pio) 
44: 0 8 a 0 GIC 44 kmi-p1050 
45: 0 100 0 0 GIC 45 kmi-p1050 
47: 0 0 0 0 GIC 47 eth0 
IPIO 0 1 1 1 CPU wakeup interrupts 
IPIL 0 0 0 0 Timer broadcast interrupts 
IPI2: 454 266 436 642 Rescheduling interrupts 
TPES 0 1 1 1 Function call interrupts 
IPI4 0 0 0 0 Single function call interrupts 
IPIS 0 0 0 0 CPU stop interrupts 
IPI6 0 0 0 0 IRQ work interrupts 
IPI7 0 0 0 0 completion interrupts 
Err: 0 


而 比较 低 效 率 的 方法 则 是 只 给 CPU0 提 供 定时 器 ， 由 CPU0 将 定时 器 中 断 通 过 IPI (Inter Processor Interrupt， 处 理 器 间 中 断 ) 广播 到 其 他 核 。 对 于 ARM 来 讲 ，1 号 IPIIPL_TIM ER 就 是 来 负责 这 个 广播 
的 ， 从 arch/arm/kernel/smp.c 可 以 看 出 : 


enum ipi msg type { 
IPI WAKEUP, 
IPI TIMER, 
IPI_RESCHEDULE, 
IPI_CALL FUNC, 
IPI_CALL_FUNC_SINGLE, 
IPI_CPU_STOP, 


20.3 ”中 断 控制 器 驱动 


在 Linux 内 核 中 ， 各 个 设备 驱动 可 以 简单 地 调用 request irq () . enable irq () , disable irq () , local_irq disable () , local_irq enable () 等 通用 ApPl 来 完成 中 断 申 请 、 使 能 、 禁 止 等 功能 。 在 
将 Linux 移 植 到 新 的 SoC 时 ， 芯 片 供应 商 需要 提供 该 部 分 API 的 底层 支持 。 


local_irq_disable () , local_irq_enable () 的 实现 与 具体 中 断 控 制 器 无 关 ， 对 于 ARM v6 以 上 的 体系 结构 而 言 ， 是 直接 调用 CPSID/CPSIE 指 令 进行 ， 而 对 于 ARM v6 以 前 的 体系 结构 ， 则 是 通过 
MRS、MSR 指 令 来 读 取 和 设置 ARM 的 CPSR 寄 存 器 。 由 此 可 见 ，local_irq_disable () 、local_irq_enable () 针对 的 并 不 是 外 部 的 中 断 控制 器 ， 而 是 直接 让 CPU 本 身 不 响应 中 断 请 求 。 相 关 的 实现 位 于 
arch/arm/include/asm/irqflags.h 中 ， 如 代码 清单 20.3 所 示 。 


代码 清单 20.3 ARM Linux local_irq_disable () /enable () 底层 实现 


1#if _ LINUX ARM ARCH >= 6 

2 

3static inline unsigned long arch local irq save (void) 
cal 

5 unsigned long flags; 


7 asm volatile( 

8 ” mrs %0, cpsr @ arch_local_irq_save\n" 
9 ” cpsid i" ~ =. 
10 : "=r" (flags) : : "memory", 
11 return flags; 


cc"); 


14static inline void arch local_irq_enable (void) 

15{ 

16 asm volatile ( 

17 ui cpsie i @ arch local irq enable" 
18 $ 

19 $ 

20 : "memory", 
21} 

22 

23static inline void arch local irq disable (void) 

24{ 

25 asm volatile ( 

26 vr cpsid i @ arch_local_irg disable" 
27 : 

28 $ 

29 : "memory", 
30} 

31#else 

32 

33/* 

34 * Save the current interrupt enable state & disable IRQs 
35.*/ 

36static inline unsigned long arch local irq save (void) 

37{ 

38 unsigned long flags, temp; 


cc"); 


cc"); 


40 asm volatile( 

41 “s mrs %0, cpsr @ arch local irq save\n" 
42 jd orr $1, 30, #128\n" 

43 " msr Cpsr op 31" 

44 : "=r" (flags), Woy" (temp) 

46 : "memory", " 
47 return flags; 


cc"); 


50/* 

51 * Enable IRQs 

52 */ 

53static inline void arch local_irq_enable (void) 


55 unsigned long temp; 

56 asm volatile ( 

57 mrs %0, cpsr @ arch_local_irg_enable\n" 
58 i bic %0, %0, #128\n" 

59 A msr cpsr_c, %0" 

60 : "=r" (temp) = 


62 : "memory", "cc"); 


65/* 

66 * Disable IRQs 

BT 

68static inline void arch local irq disable (void) 

69{ 

70 unsigned long temp; 

71 asm volatile ( 

72 mrs %0, cpsr @ arch_local_irq disable\n" 
73 Ld orr %0, %0, #128\n" 7! ‘gt 

74 = msr cpsr_c, %0" 

75 : "=r" (temp) g 

76 : 

77 : "memory", 
78} 

79 #endif 


cc"); 


Slocal_irq_disable () #local_irq_enable () 不 同 ，disable irq () , enable_irq () 针对 的 则 是 中 断 控制 器 ， 因 此 它们 适用 的 对 象 是 某 个 中 断 。disable irq () 的 字面 意思 是 暂时 屏蔽 掉 某 中 断 
(其 实在 内 核 的 实现 层面 上 做 了 延 后 屏蔽 ) ， 直 到 enable_irq () 后 再 执行 |SR。 实 际 上 ， 屏 项 中 断 可 以 发 生 在 外 设 、 中 断 控 制 器 、CPU 三 个 位 置 ， 如 图 20.3 所 示 。 对 于 外 设 端 ， 是 从 源头 上 就 不 产生 中 断 信 
号 给 中 断 控 制 器 ， 由 于 它 高 度 依赖 于 外 设 于 本 身 ， 所 以 Linux 不 提供 标准 的 API 而 是 由 外 设 的 驱动 直接 读 写 自身 的 寄存 器 。 


[ 


EEIE 


直接 读 写 外 设 disable_irq() local irq_disable() 


PF TF air enable_irq() local irq enable() 


图 20.3 ”屏蔽 中 断 的 3 个 不 同位 置 


在 内 核 中 ， 通 过 irq_chip 结 构 体 来 描述 中 断 控制 器 。 该 结构 体内 部 封装 了 中 断 mask、unmask、ack 等 成 员 函 数 ， 其 定义 于 include/linux/irq.h 中 ， 如 代码 清单 20.4 所 示 。 


代码 清单 20.4。irq_chip 结 构 体 


lstruct irq chip { 
2 


const char *name; 

3 unsigned int (*irg_startup) (struct irq data *data); 

4 void (*irg_shutdown) (struct irq_data *data); 

5 void (*irg_enable) (struct irq data *data); 

6 void (*irg_disable) (struct irq data *data); 

7 

8 void (*irg_ack) (struct irq data *data); 

9 void (*irg_mask) (struct irq data *data); 

10 void (*irg_mask_ack) (struct irq data *data); 

ii void (*irg_unmask) (struct irq_data *data); 
12 void (*irg_eoi) (struct irq_data *data); 
13 
14 int (*irg_set_affinity) (struct irq data *data, const struct 

cpumask *dest, bool force); 
15 int (*irg_retrigger) (struct irq data *data); 
16 int (*irg_set_type) (struct irq data *data, unsigned int 
flow_type); 

17 int (*ixrg_set_wake) (struct irg_data *data, unsigned int on); 
18}; 


ig 


各 个 芯片 公司 会 将 芯片 内 部 的 中 断 控制 器 实现 为 irq_chip 驱 动 的 形式 。 受 限于 中 断 控 制 器 硬件 的 能 力 ， 这 些 成 员 函 数 并 不 一 定 需要 全 部 实现 ， 有 时 候 只 需要 实现 其 中 的 部 分 函数 即 可 。 璧 如 
drivers/pinctrl/sirf/pinctrl-sirf.c 驱 动 中 的 下 面 代码 部 分 : 


static struct irg chip sirfsoc irq chip = { 
.name = "sirf-gpio-irq", 
-irg_ack = sirfsoc_gpio_irg ack, 
-irg_mask = sirfsoc_gpio_irg mask, 
-irg_unmask = sirfsoc gpio irq unmask, 
-irq_set_type = sirfsoc gpio irq type, 


RRM HepAyack, mask, unmaskflset_typek RAŽ, ackeeyAAFis Re, mask, unmask F PERRI PER. set type AFEFE, WABE, KEF, EFH 
沿 、 下 降 沿 等 。 至 于 到 enable irq () 的 时 候 ， 虽 然 没有 实现 irq_enable () 成 员 函 数 ， 但 是 内 核 会 间接 调用 irq_unmask () 成 员 函 数 ， 这 点 从 kernel/irq/chip.c 中 可 以 看 出 : 


void irq enable(struct irq desc *desc) 
{ 
irq state clr disabled (desc) ; 
if (desc->irq data.chip->irq enable) 
desc->irq data.chip->irq enable (&desc->irq_data) ; 
else 
desc->irq data.chip->irq unmask (&desc->irq_data) ; 
irq state clr masked (desc) ; 


在 芯片 内 部 ， 中 断 控制 器 可 能 不 止 1 个 ， 多 个 中 断 控 制 器 之 间 还 很 可 能 是 级 联 的 。 举 个 例子 ,假设 芯片 内 部 有 一 个 中 断 控制 器 ， 支 持 32 个 中 断 源 ， 其 中 有 4 个 来 源 于 GPIO 控 制 器 外 围 的 4 组 GPIO， 每 组 
GPIO 上 又 有 32 个 中 断 (许多 芯片 的 GPIO 控 制 器 也 同时 是 一 个 中 断 控制 器 ) ， 其 关系 如 图 20.4 所 示 。 
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图 20.4 SoC 中 断 控制 器 的 典型 分 布 


那么 ， 一 般 来 讲 ， 在 实际 操作 中 ，gpio0_0~gpio0_31 这 些 引 脚本 身 在 第 1 级 会 使 用 中 断 号 28， 而 这 些 引 脚本 身 的 中 断 号 在 实现 与 GP1O 控 制 器 对 应 的 irq_chip 驱 动 时 ， 我 们 又 会 把 它 映射 到 Linux 系 统 的 
32~63 号 中 断 。 同 理 ，gpio1_0~gpio1_31 这 些 引 脚本 身 在 第 1 级 会 使 用 中 断 号 29， 而 这 些 引 脚本 身 的 中 断 号 在 实现 与 GPIO 控 制 器 对 应 的 irq_chip 驱 动 时 ， 我 们 又 会 把 它 映 射 到 Linux 系 统 的 64~ 95 号 中 断 ， 


以 此 类 推 。 对 于 中 断 号 的 使 用 者 而 言 ， 无 须 看 到 这 种 2 级 映射 关系 。 如 果 某 设备 想 申请 与 gpio1_0 这 个 引 脚 对 应 的 中 断 ， 它 只 需要 申请 64 号 中 断 即 可 。 这 个 关系 图 看 起 来 如 图 20.5 所 示 。 


要 特别 注意 的 是 ， 上 述 图 20.4 和 20.5 中 所 涉及 的 中 断 号 的 数值 ， 无 论 是 base 还 是 具体 某 个 GPIO 对 应 的 中 断 号 是 多 少 ， 都 不 一 定 是 如 图 20.4 和 图 20.5 所 描述 的 简单 线性 映射 。Linux 使 用 IRQ Domain 来 
描述 一 个 中 断 控 制 器 所 管理 的 中 断 源 。 换 名 话说， 每 个 中 断 控制 器 都 有 自己 的 Domain。 我 们 可 以 将 IRQ Domain 看 作 是 IRQ 控 制 器 的 软件 抽象 。 在 添加 IRQ Domain 的 时 候 ， 内 核 中 存在 的 映射 方法 有 : 


irq_domain_add legacy () 、irq domain add linear () 、irq_domain_add tree () 等 。 
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图 20.5 ”中断 级 联 与 映射 


irq_domain_add_legacy () 实际 上 是 一 种 过 时 的 方法 ， 它 一 般 是 由 IRQ 控 制 器 驱动 直接 指定 中 断 源 硬件 意义 上 的 偏 移 (一 般 称 为 hwirq) 和 Linux 逻 辑 上 的 中 断 号 的 映射 关系 。 类 似 图 20.5 的 指定 映射 
可 以 被 这 种 方法 弄 出 来 。irq_domain_add linear () 则 在 中 断 源 和 irq_desc 之 间 建 立 线 性 映射 ， 内 核 针对 这 个 IRQ Domain 维 护 了 一 个 hwirq 和 Linux 逻 辑 IRQ 之 间 关 系 的 一 个 表 ， 这 个 时 候 我 们 其 实 也 完全 
不 关心 逻辑 中 断 号 了 ; irq_domain_add tree () 则 更 加 灵活 ， 逻 辑 中 断 号 和 hwirq 之 间 的 映射 关系 是 用 一 棵 radix 树 来 描述 的 ， 我 们 需要 通过 查找 的 方法 来 寻找 hwirq 和 Linux 逻 辑 IRQ 之 间 的 关系 ， 一 般 适 


合 某 中 断 控制 器 支持 非常 多 中 断 源 的 情况 。 


实际 上 ， 在 当前 的 内 核 中 ， 中 断 号 更 多 的 是 一 个 逻辑 概念 ， 具 体 数值 是 多 少 不 是 很 关键 。 人 们 更 多 的 是 关心 在 设备 树 中 设置 正确 的 interrupt_parrent 和 相对 该 interrupt_parent 的 偏 移 。 
以 drivers/pinctrl/sirf/pinctrl-sirf.c 的 irq_chip 部 分 为 例 ， 在 sirfsoc_gpio_probe () 函数 中 ， 每 组 GPIO 的 中 断 都 通过 gpiochip_set_chained irqchip () 级 联 到 上 一 级 中 断 控制 器 的 中 断 。 


代码 清单 20.5 ”二 级 GPIO 中 断 级 联 到 一 级 中 断 控制 器 


istatic int sirfsoc_gpio_probe (struct device_node *np) 


2{ 
3http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
4for (i = 0; i < SIRFSOC GPIO NO OF BANKS; i++) { 


5 bank = &sgpio->sgpio_bank[i]; 
6 spin_lock_init (&bank->lock) ; 
7 bank->parent_irg = platform get_irq(pdev, i); 
8 if (bank->parent irq < 0) { 
9 err = bank->parent_irg; 
10 goto out_banks; 
11 } ~ 
12 
13 gpiochip_set_chained_irgqchip(&sgpio->chip.gc, 
14 @sirfsoc_irq chip, 
15 bank->parent irq, 
16 sirfsoc_gpio handle irq); 
LL} 
18 
19http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
20} 


对 于 SIRFSOC_GPIO_NO_OF_BANKS 这 么 多 组 GPIO 进 行 循环 ， 上 述 代码 中 第 15 行 的 bank-> parent_irq 是 与 这 一 组 GPIO 对 应 的 “上 级 ”中 断 号 ，sirfsoc_gpio_handle irq () 则 是 与 bank- 
>parent irq 对 应 的 “上 级 ”中 断 服务 程序 。 而 sirfsoc_gpio_handle_irq () 这 个 “上 级 ”函数 最 终 还 是 要 调用 GPIO 这 一 级 别 的 中 断 服务 程序 。 


在 sirfsoc_gpio_handle_irq () 函数 的 入 口 处 调用 chained_irq_enter () 暗示 自身 进入 链 式 IRQ 处 理 ， 在 函数 体内 判决 具体 的 GPIO 中 断 ， 并 通过 generic_handle_irq () 调用 最 终 的 外 设 驱动 中 的 中 断 
服务 程序 ， 最 后 调用 chained irq_exit () 暗示 自身 退出 链 式 IRQ 处 理 ， 如 代码 清单 20.6 所 示 。 


代码 清单 20.6 “上 级 ”中 断 服务 程序 派生 到 下 级 


1static void sirfsoc_gpio_handle_irq(unsigned int irq, struct irq desc *desc) 


2{ 


3http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


4chained irq enter (chip, desc); 


5 

6while (status) { 

7 ctrl = readl(sgpio->chip.regs + SIRFSOC_GPIO_CTRL(bank->id, idx)); 
8 

9 ie 

10 * Here we must check whether the corresponding GPIO’ s interrupt 
11 * has been enabled, otherwise just skip it 

12 ple 

13 if ((status & 0x1) && (ctrl & SIRFSOC_GPIO_CTL_INTR_EN MASK)) { 
14 generic _handle_irg(irg_find_mapping(gc->irqdomain, idx + 
15 bank->id * SIRFSOC_GPIO_BANK_SIZE)); 

16 } 

17 

18 idx++; 

19 status = status >> 1; 

20} 

21 

22chained irq_exit (chip, desc); 

23} 


下 面 用 一 个 实例 来 呈现 这 个 过 程 ， 假 设 GPIO0_ 0~31 对 应 上 级 中 断 号 28， 而 外 设 A 使 用 了 GPIO0_5 ( 即 第 0 组 GPIO 的 第 5 个 ) ， 并 假定 外 设 A 的 中 断 号 为 37， 即 32+ 5， 中 断 服 务 程序 为 deva_isr () . BB 


么 ， 当 GPIO0_5 中 断 发 生 的 时 候 ， 内 核 的 调用 顺序 是 : sirfsoc_gpio_handle irq () ->generic_handle_irq () ->deva_isr () 。 如 果 硬 件 的 中 断 系 统 有 更 深 的 层次 ， 这 种 软件 上 的 中 断 服务 程序 级 联 实际 
上 可 以 有 更 深 的 级 别 。 


在 上 述 实例 中 ，GPIO0 0~31 的 interrupt_parrent 实 际 是 上 级 中 断 控制 器 ， 而 外 设 A 的 interrupt_parrent 就 是 GPIO0， 这 些 都 会 在 设备 树 中 进行 呈现 。 


很 多 中 断 控制 器 的 寄存 器 定义 呈现 出 简单 的 规 得 


Hi 


代码 清单 20.7 ”使 用 generic 的 irq_chip 框 架 


， 如 有 一 个 mask 寄 存 器 ， 其 中 每 1 位 可 屏蔽 1 个 中 断 等 ， 在 这 种 情况 下 ， 我 们 无 须 实现 1 个 完整 的 irq_chip 驱 动 ， 而 可 以 使 用 内 核 提供 的 通用 irq_chip 驱 动 
架构 irq_chip_generic， 这 样 只 需要 实现 极 少量 的 代码 ， 如 drivers/irqchip/irq-sirfsoc.c 中 ， 用 于 注册 CSR SiRFprimall 内 部 中 断 控 制 器 的 代码 ( 见 代码 清单 20.7) 。 


lstatic _init void 


2sirfsoc alloc gc(void __iomem *base, unsigned int irq start, unsigned int num) 


3{ 

4 struct irq chip_generic *gc; 

5 struct irq chip type *ct; 

6 int ret; 

7 unsigned int clr = IRQ_NOREQUEST | IRQ _NOPROBE | IRQ NOAUTOEN; 
8 unsigned int set = IRQ LEVEL; 

9 

10 ret = irq_alloc_domain_generic_chips(sirfsoc_irqdomain,num, 1, "irq sirfsoc", 
A: handle_level_irg, clr, set, IRQ_GC_INIT MASK CACHE); 

12 

13 gc = irq_get_domain_generic_chip(sirfsoc_irqdomain, irq_start); 
14 gc->reg_base = base; 

15 ct = gc->chip_types; 

16 ct->chip.irq mask = irq gc_mask clr bit; 

17 ct->chip.irq_unmask = irq gc mask set bit; 

18 ct->regs.mask = SIRFSOC INT RISC MASKD; 

19} 


irq_chip 驱 动 的 入 口 声明 方法 形 如 : 


TROCHIP_DECLARE(sirfsoc_intc, "sirf,prima2-intc", sirfsoc_irg init); 


sirf，prima2-intc 是 设备 树 中 中 断 控 制 器 的 compatible 字 段 ，sirfsoc_irq_init 是 匹配 这 个 compatible 字 段 后 运行 的 初始 化 函数 。 


特别 值得 一 提 的 是 ， 目 前 多 数 主 流 ARM 芯 片 内 部 的 一 级 中 断 控制 器 都 使 用 了 ARM 公 司 的 GIC， 我 们 几乎 不 需要 实现 任何 代码 ， 只 需要 在 设备 树 中 添加 相关 的 节点 。 


如 在 arch/arm/boot/dts/exynos5250.dtsi 中 即 含 有 : 


gic:interrupt-controller@10481000 { 
compatible = "arm, cortex-a9-gic"; 
#interrupt-cells = <3>; 
interrupt-controller; 
reg = <0x10481000 0x1000>, <0x10482000 0x2000>; 
hi 


WF 或 者 WFE 状 态 ， 并 等 待 CPU0O 给 其 发 CPU 核 间 中 汤 或 导 


打开 drivers/irqchip/irq-gic.c， 发 现 G1C 驱 动 的 入 口 声 明 如 下 : 


IRQCHIP DECLARE (gic 400, "arm,gic-400", gic of init); 

IRQCHIP DECLARE (cortex_al5 gic, "arm,cortex-al5-gic", gic of init); 
IRQCHIP DECLARE (cortex a9 gic, “arm,cortex-a9-gic", gic of init); 
IRQCHIP DECLARE (cortex a7 gic, "arm,cortex-a7-gic", gic of init); 
IRQCHIP DECLARE (msm 8660 qgic, "qcom,msm-8660-qgic", gic of init); 
IRQCHIP DECLARE (msm qgic2, "qcom,msm-qgic2", gic of init); `~ 


这 说 明 driversVirqchipyirq-gic.c 这 个 驱动 可 以 兼容 arm，gic-400、arm，cortex-a15-gic、arm，cortex-a7-gic 等 ， 但 是 初始 化 函数 都 是 统一 的 gic_of init, 


20.4 SMP 多 核 启动 以 及 CPU 热 插 拔 驱动 


在 Linux 系 统 中 ， 对 于 多 核 的 ARM 芯 片 而 言 ， 在 Bootrom 代 码 中 ， 每 个 CPU 都 会 识别 自 


被 CPU0 唤 醒 的 CPUn 可 以 在 运行 过 程 中 进行 热 播 拔 ， 艾 如 运行 如 下 命令 即 可 仓 载 CPU1 


身 ID， 如 果 ID 是 0， 则 引导 Bootloader 和 Linux 内 核 执行 ， 如 果 1D 不 是 0， 则 Bootrom 一 般 在 上 电 时 将 自身 置 于 


(+ (一 般 通 过 SEV 指 令 ) 以 唤醒 它 。 一 个 典型 的 多 核 Linux 启 动 过 程 如 图 20.6 所 示 。 


， 并 且 将 CPU1 上 的 任务 全 部 迁移 到 其 他 CPU 中 : 


# echo 0 > /sys/devices/system/cpu/cpul/online 


同 理 ， 运 行 如 下 命令 可 以 再 次 启动 CPU1: 


# echo 1 > /sys/devices/system/cpu/cpul/online 


之 后 CPU1 会 主动 参与 系统 中 各 个 CPU 之 间 要 运行 任务 的 负载 均衡 工作 。 


Linux 内 核 初 始 化 


唤醒 CPU1...7 


多 个 CPU 共同 承担 系统 负载 “负载 均衡 ) 


| 


20.6 一 个 典型 的 多 核 Linux 启 动 过 程 


CPU0 唤 醒 其 他 CPU 的 动作 在 内 核 中 被 封装 为 一 个 mp_operations 的 结构 体 ， 对 于 ARM 而 言 ， 它 定义 于 archy/arryinclude/asm/smp.h 中 。 该 结构 体 的 成 员 函 数 如 代码 清单 20.8 所 示 。 


代码 清单 20.8 smp_operations 结 构 体 


lstruct smp_operations { 
2#ifdef CONFIG_SMP 


3 fe 

4 oe the set of possible CPUs (via set_cpu_possible) 

5 * 

6 void (*smp_init_cpus) (void); 

7 Ves 

8 * Initialize cpu_possible map, and enable coherency 

9 wy 

10 void (*smp prepare cpus) (unsigned int max cpus); 

11 

12 y% 

13 * Perform platform specific initialisation of the specified CPU. 
14 af 

15 void (*smp_secondary_ init) (unsigned int cpu); 

16 /* 

iT * Boot a secondary CPU, and assign it the specified idle task. 
18 * This also gives us the initial stack to use for this CPU. 
19 ad 

20 int (*smp_boot_secondary) (unsigned int cpu, struct task_struct *idle); 
21#ifdef CONFIG_HOTPLUG_CPU 

22 int (*cpu_kill) (unsigned int cpu); 

23 void (*cpu_die) (unsigned int cpu); 

24 int (*cpu disable) (unsigned int cpu); 

25#endif 

26#endif 

27}; 


我 们 从 arch/arm/mach-vexpress/v2m.c 中 看 到 VEXPRESS 电 路 板 用 到 的 smp_ops () Avexpress_smp_ops: 


DT_MACHINE START(VEXPRESS_DT, "ARM-Versatile Express") 


-dt_compat = v2m dt match, 
. Smp = smp_ops (vexpress_smp_ops), 
.map_io = v2m_dt_map_io, 

MACHINE END 


通过 arch/arm/mach-vexpress/platsmp.c 的 实现 代码 可 以 看 出 ，smp_operations 的 成 员 函 数 smp _init_cpus () ， 即 vexpress_ smp_init_cpus () 调用 的 ct_ca9x4 init_cpu_map () 会 探测 SoC 内 
CPU 核 的 个 数 ， 并 通过 set cpu_possible () 设置 这 些 CPU 可 见 。 


而 smp_operations 的 成 员 函 数 smp_prepare_cpus () ， 即 vexpress smp_prepare_cpus () 则 会 通过 v2m flags_set (virt_to_phys (versatile secondary startup) ) 设置 其 他 CPU 的 启动 地 址 为 


versatile secondary startup， 如 代码 清单 20.9 所 示 。 


代码 清单 20.9 在 smp_prepare_cpus () 中 设置 CPU1http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/.…n 的 启动 地 址 


lstatic void _ init vexpress_smp_prepare_cpus (unsigned int max cpus) 


2{ 

3 

4 

5 is 

6 * Write the address of secondary startup into the 

* system-wide flags register. The boot monitor waits 
8 * until it receives a soft interrupt, and then the 
9 * secondary CPU branches to this address. 

10 ali 

11 v2m_flags_set (virt_to_phys (versatile _secondary_startup) ) 7 
12} 


注意 这 部 分 的 具体 实现 方法 是 与 SoC 相 关 的 ， 由 芯片 的 设计 以 及 芯片 内 部 的 Bootrom 决 定 。 对 于 VEXPRESSs 来 讲 ， 设 置 方法 如 下 : 


void _ init v2m flags_set (u32 data) 

{ 
writel (~0, v2m_sysreg base + V2M SYS FLAGSCLR); 
writel (data, v2m_sysreg base + V2M SYS FLAGSSET) ; 


即 填充 v2m_sysreg_base+V2M_SYS_FLAGSCLR 标 记 清 除 寄 存 器 为 0xFFFFFFFF， 将 CPU1http://www.hzcourse.comy/resource/readBook? 
path=/openresources/teach_ ebook/uncompressed/15319/OEBPS/Text/...n 初 始 启 动 执行 的 指令 地 址 填 入 v2m_sysreg_base+V2M_SYS_FLAGSSET 寄 存 器 。 这 两 个 地 址 由 芯片 实现 时 内 部 的 Bootrom 
程序 设 定 的 。 填 入 CPU1http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/...n 的 起 始 地 址 都 通过 virt_to_phys () 转化 为 物理 
地 址 ， 因 为 此 时 CPU1http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/.…n 的 MMU 尚 未 开启 。 


比较 关键 的 是 smp_operations 的 成 员 函 数 smp_boot secondary () ， 对 于 本 例 而 言 为 versatile_boot_secondary () ， 它 完成 CPU 的 最 终 唤 醒 工 作 ， 如 代码 清单 20.10 所 示 。 


代码 清单 20.10 “CPU0 通 过 中 断 唤 醒 其 他 CPU 


lstatic void write pen release (int val) 


2{ 

3pen_release = val; 
4smp_wmb () 7 

Ssync_cache_w( &pen_release) $ 
6} 

7 


8int versatile boot secondary (unsigned int cpu, struct task struct *idle) 
91{ 

10unsigned long timeout; 

11http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
12/* 

13 * This is really belt and braces; we hold unintended secondary 
14 * CPUs in the holding pen until we’ re ready for them. However, 
15 * since we haven’ t sent them a soft interrupt, they shouldn’ t 
16 * be there. 

17 */ 

18write_pen_release (cpu logical map (cpu) ); 

19 

20/* 

21 * Send the secondary CPU a soft interrupt, thereby causing 

22 * the boot monitor to read the system wide flags register, 

23 * and branch to the address found there. 

24 */ 

25arch_send_wakeup_ipi_mask (cpumask_of (cpu) ); 

26 

27timeout = jiffies + (1 * HZ); 

28while (time_before(jiffies, timeout)) { 


29 smp_rmb(); 

30 if (pen_release == -1) 

31 break; 

32 

33 udelay (10) ; 

34} 

35http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
36return pen_release != -1 -ENOSYS : 0; 

37} 


上 述 代码 第 18 行 调用 的 write_pen_release () 会 将 pen_release 变 量 设置 为 要 唤醒 的 CPU 核 的 CPU 号 cpu_logical map (cpu) ， 而 后 通过 arch_send_ wakeup_ipi mask () 给 要 唤醒 的 CPU 发 |Pl 中 
断 ， 这 个 时 候 ， 被 唤醒 的 CPU 会 退出 WFI 状 态 并 从 前 面 smp_operations 中 的 smp_prepare_cpus () 成 员 函 数 ， 即 vexpress_ smp_prepare cpus () 里 通过 v2m flags_set () 设置 的 起 始 地 址 
versatile secondary _startup 开 始 执行 ， 如 果 顺 利 的话 ， 该 CPU 会 将 原先 为 正 数 的 pen_release 写 为 -1， 以 便 CPU0 从 等 待 pen_release 成 为 -1 的 循环 ( 见 第 28~34 行 ) 中 跳 H| 


EE 


versatile_ secondary _ startup 实 现 于 archy/armyplat-versatile/headsmp.s 中 ， 是 一 段 汇编 ， 如 代码 清单 20.11 所 示 。 


代码 清单 20.11 被 唤醒 CPU 的 执行 入 口 


1ENTRY (versatile_secondary_startup) 


2 mre pl5, 0, x0, od cü; 5 

3 and rO; r0, #15 

4 adr r4, 1£ 

5 ldmia r4, {r5, r6} 

6 sub r4, r4, r5 

7 add r6, r6, r4 

8pen: ldr r7, [r6] 

9 cmp x7, x0 

10 bne pen 

11 

12 fe 

13 * we’ ve been released from the holding pen: secondary stack 
14 * should now contain the SVC stack for this core T 
15 xy 

16 b secondary startup 

17 k 

18 „align 

191: .long 

20 -long pen release 


21ENDPROC (versatile_secondary_startup) 


上 述 代码 第 8~10 行 的 循环 是 等 待 pen_release 变 量 成 为 CPU0 设 置 的 cpu_logical map (cpu) ， 一 般 直接 就 成 立 了 。 第 16 行 则 调用 内 核 通用 的 secondary_startup () 函数 ， 经 过 一 系列 的 初始 化 (如 
MMU 等 ) ， 最 终 新 的 被 唤醒 的 CPU 将 调用 smp_operations 的 smp_secondary init () 成 员 函 数 ， 对 于 本 例 为 versatile_secondary_init () ， 如 代码 清单 20.12 所 示 。 


代码 清单 20.12 ”被 唤醒 的 CPU 恢复 pen_release () 


lvoid versatile_secondary_init (unsigned int cpu) 


2 

3 g= 

4 * let the primary processor know we’ re out of the 
5 * pen, then head off into the C entry point 
6 wf 

7 write_pen_release (-1); 

8 

9 i 

10 * Synchronise with the boot thread. 

11 */ 

12 spin_lock (&boot_lock) ; 

13 spin_unlock (&boot_lock) ; 

14} 


上 述 代码 第 7 行 会 将 pen_release 写 为 -1， 于 是 CPU0 还 在 执行 的 代码 清单 20.10 里 versatile_ boot_secondary () 函数 中 的 如 下 循环 就 退出 了 : 


while (time_before(jiffies, timeout)) { 
smp_rmb () 7 
if (pen _ release 一 -1) 
“break; 
udelay (10); 


这 样 CPU0 就 知道 目标 CPU 已 经 被 正确 地 唤醒 ， 此 后 CPU0 和 新 唤醒 的 其 他 CPU 各 自 运行 。 整 个 系统 在 运行 过 程 中 会 进行 实时 进程 和 正常 进程 的 动态 负载 均衡 。 


IR 


司 20.7 总 结 性 地 描述 了 前 文 提 到 的 vexpress smp_prepare_cpus () , versatile boot_secondary () . write_pen_release () , versatile secondary startup () , versatile secondary init () 这 
些 函 数 的 执行 顺序 。 


CPUO CPU1 


vexpress_smp_prepare_cpus () 


设置 新 CPU 从 versatile_secondary_startup() 开始 执行 


versatile_boot secondary () 


将 write_ pen_release () 写 为 新 CPU ID 


ge | 


发 中 断 唤 醒 CPUIl 


iB ih WFI 


versatile _secondary_statup () 


bite ne statup () 
轮 询 等 待 pen_release 为 一 1 人 p 


versatile secandary_init() 


re 


上 


图 20.7 ”CPU0 唤 醒 其 他 CPU 过 程 


CPU 热 插 拔 的 实现 也 是 与 芯片 相关 的 ， 对 于 VEXPRESS 而 言 ， 实 现 了 smp_operations 的 cpu_die () 成 员 函 数 ， 即 vexpress_cpu_die () 。 它 会 在 进行 CPUn 的 拔除 操作 时 将 CPUn 投 入 低 功 耗 的 WFI 状 
态 ， 相 关 代码 位 于 arch/arm/mach-vexpress/hotplug.c 中 ， 如 代码 清单 20.13 所 示 。 


代码 清单 20.13 smp_operations 的 cpu_die () 成 员 函 数 案例 


lvoid _ ref vexpress cpu die (unsigned int cpu) 
2{ 


3 int spurious = 0; 

4 

5 i 

6 * we’ re ready for shutdown now, so do it 

7 */ 

8 cpu enter lowpower () ; 

9 platform do lowpower (cpu, &spurious) ; 

10 

ti ike 

12 * bring this CPU back into the world of cache 

13 * coherency, and then restore interrupts 

14 ty 

15 cpu _leave_lowpower () 7 

16 

17 if (spurious) 

18 pr_warn("CPU%u: %u spurious wakeup calls\n", cpu, spurious); 
19} 

20static inline void platform do_lowpower (unsigned int cpu, int *spurious) 
21{ 

22 /* 

23 * there is no power-control hardware on this platform, so all 
24 * we can do is put the core into WFI; this is safe as the calling 
25 * code will have already disabled interrupts 

26 +7 

27 for (;;) { 

28 wfi(); 

29 

30 if (pen_release == cpu_logical_map(cpu)) { 

31 于 

32 * OK, proper wakeup, we're done 

33 af 

34 break; 

35 } 

36 

37 /* 

38 * Getting here, means that we have come out of WFI without 
39 * having been woken up - this shouldn’ t happen 

40 * 

41 * Just note it happening - when we’ re woken, we can report 
42 * its occurrence. 

43 */ 

44 (*spurious) ++; 

45 } 

46} 


CPUn 睡 眠 于 wfi () ， 之 后 再 次 在 线 的 时 候 ， 又 会 因为 CPU0 给 它 发 出 的 IPI 而 从 wfi () 函数 返回 继续 执行 ， 醒 来 时 CPUn 也 判断 “pen_release==cpu_logical map (cpu) ”是 否 成 立 ， 以 确定 该 次 


醒 来 确实 是 由 CPU0 唤 醒 的 一 次 正常 醒 来 。 


20.5 ” DEBUG LL 和 EARLY_PRINTK 的 设置 


在 Linux 启 动 的 时 期， 控制 台 驱动 还 没有 投入 运行 。 当 我 们 把 Linux 移 植 到 一 个 新 的 SoC 时 ， 工 程 师 一 般 非常 想 在 刚 开 始 就 可 以 执行 printk () 功能 以 跟踪 调试 启动 过 程 。 内 核 的 DEBUG_LL 和 
EARLY_PRINTK 选 项 为 我 们 提供 了 这 样 的 支持 ， 而 在 Bootloader 引 导 内 核 执 行 的 bootargs 中 ， 则 需要 使 能 earlyprintk 选 项 。 


为 了 让 DEBUG_LL 和 EARLY_PRINTK 可 以 运行 ， 在 Linux 内 核 中 需 实 现 早期 解压 过 程 打 印 需要 的 putc () 和 后 续 的 addruart、senduart 和 waituart 等 宏 。 以 CSR SiRFprimall 为 例 ， 相 关 的 代码 实现 于 
arch/arm/include/debug/sirf.S 中 ， 如 代码 清单 20.14 所 示 。 


代码 清单 20.14 DEBUG LL 端 


的 驱动 


1.macroaddruart, rp, rv, tmp 


2ldr\rp, =SIRFSOC_UART1_PA_BASE 
3ldr\rv, =SIRFSOC_UART1_VA_BASE 


4.endm 
5 


6.macrosenduart, rd, rx 
[\rx, #SIRFSOC_UART_TXFIFO_DATA] 


7str\rd, 
8.endm 
9 


10.macrobusyuart, rd, rx 


11.endm 
12 


13.macrowaituart, rd, rx 
141001:1dr\rd, [\rx, #SIRFSOC_UART_TXFIFO_STATUS] 
15tst\rd, #STRFSOC_UART1_TXFIFO_EMPTY 


1€beq1001b 
17.endm 


@ physical 
@ virtual 


这 些 代码 没 有 复杂 的 框架 和 中 断 的 支持 ， 只 是 单纯 地 往 UART 的 TX FIFO 寄 存 器 写 要 发 送 的 数据 。 其 中 的 senduart 完 成 了 往 UART 的 FIFO 丢 打印 字符 的 过 程 。waituart 则 相当 于 一 个 流量 握手 ， 等 待 FIFO 


为 空 。 这 些 宏 最 终 会 被 内 核 的 arch/arm/kernel/debug.5 引 用 。 


而 对 于 本 书 与 vexpress QEMU 对 应 的 实验 平台 而 言 ， 相 应 的 驱动 则 位 于 arch/arm/include/debug/pl01x.S 中 ， 同 样 是 实现 了 类 似 的 宏 。 


在 配置 内 核 的 时 候 ， 要 进行 正确 的 配置 。 
的 UART 类 型 为 PLO1X， 如 


20.8 所 示 。 


璧 如， 对 于 vepress 的 实验 板子 ， 我 们 选择 的 就 是 “Kernel low-level debugging port (Use PLO11UARTOat 0x10009000 (V2P-CAQcore tile) ) ”， 对 应 


Kernel hacking 

Arrow keys navigate the menu. <Enter> selects submenus ---> (or empty submenus ----). 
Highlighted letters are hotkeys. Pressing <Y> includes, <N> excludes, <M> modularizes features. 
Press <Esc><Esc> to exit, <?> for Help, </> for Search. Legend: [*] built-in [ ] excluded 
<M> module < > module capable 

A=) 

[ ] Sample kernel code ---- 

[ ] KGDB: kernel debugger ---- 

[ ] Export kernel pagetable layout to userspace via debugfs 

[ ] Filter access to /dev/mem 

[*] Enable stack unwinding support (EXPERIMENTAL) 

[*] Verbose user fault messages 

*] Kernel low-level debugging functions (read help! 

i Kernel low-level debugging port (Use PLO11 UARTO at ©0x10009000 (V2P-CA9 core 

(®x10009000) Physical base address of debug UART 

(Oxf8009000) Virtual base address of debug UART 

[*] Early printk 

[ ] On-chip ETM and ETB 

[ ] Write the current PID to the CONTEXTIDR register 

[ ] Set loadable kernel module data as NX and text as RO 


< Exit > < Help > < Save > < Load > 


图 20.8 配置 DEBUG_LL 的 端口 


arch/arm/Kconfig.debug 会 根据 用 户 的 配置 选择 对 应 的 arch/arm/include/debug/xxx.S， 壁 如 : 


config DEBUG LL INCLUDE 
string ` ` 
default "debug/8250.S" if DEBUG LL UART 8250 || DEBUG UART 8250 
default "debug/pl01x.S" if DEBUG LL UART PLO1X || DEBUG UART PLO1X 
default "debug/sirf.S" if DEBUG_SIRFPRIMA2 UART1 || DEBUG SIRFMARCO UART1 


上 述 配 置 选项 对 应 的 CONFIG_DEBUG _LL INCLUDE 这 个 宏 会 被 内 核 的 arch/arm/boot/compressed/debug.S、arch/arm/boot/compressed/head.S、arch/arm/kernel/debug.S 和 
arch/arm/kernel/head.SLA “#include CONFIG_DEBUG LL INCLUDE” 的 形式 引 


20.6 ”GPIO 驱 动 


在 drivers/gpio 下 实现 了 通用 的 基于 gpiolib 的 GPIO 驱 动 ， 其 中 定义 了 一 个 通用 的 用 于 描述 底层 GPIO 控 制 器 的 gpio_chip 结 构 体 ， 并 要 求 具体 的 SoC 实 现 gpio_chip 结 构 体 的 成 员 函 数 ， 最 后 通过 
gpiochip_add () 注册 gpio_chip。GPIO 驱 动 可 以 存在 于 drivers/gpio 目 录 中 ， 但 是 在 GPIO 兼 有 多 种 功能 且 需 要 复杂 配置 的 情况 下 ，GPIO 的 驱动 部 分 往往 直接 移 到 drivers/pinctr 目 录 下 并 连同 pinmux 一 
起 实现 ， 而 不 存在 于 drivers/gpio 目 录 中 。 


gpio_chip 结 构 体 封装 了 底层 硬件 的 GPIO enable () /disable () 等 操作 ， 它 的 定义 如 代码 清单 20.15 所 示 。 


代码 清单 20.15 ”gpio_chip 结 构 体 


lstruct gpio_chip { 


2 const char *label; 

3 struct device *dev; 

4 struct module *owner; 

5 

6 int (*request) (struct gpio_chip *chip, 

7 unsigned offset); 

8 void (*free) (struct gpio chip *chip, 

9 unsigned offset); 

10 

11 int (*direction_input) (struct gpio_chip *chip, 
12 unsigned offset); 

13 int (*get) (struct gpio_chip *chip, 

14 unsigned offset); 

15 int (*direction_output) (struct gpio_chip *chip, 
16 unsigned offset, int value); 
17 int (*set_debounce) (struct gpio_chip *chip, 

18 unsigned offset, unsigned debounce) ; 
19 

20 void (*set) (struct gpio_chip *chip, 

21 unsigned offset, int value); 
22 

23 int (*to_irq) (struct gpio chip *chip, 

24 T unsigned offset); 

25 

26 void (*dbg_show) (struct seq_file *s, 

27 struct gpio_chip *chip); 

28 int base; T 

29 ul6 ngpio; 

30 const char *const *names; 

31 unsigned can_sleep:1; 

32 unsigned exported:1; 

33 

34#if defined (CONFIG OF GPIO) 

35 pe a 

36 * If CONFIG OF is enabled, then all GPIO controllers described in the 
37 * device tree automatically may have an OF translation 

38 * 

39 struct device_node *of_node; 

40 int of gpio n cells; ~ 

41 int (*of_xlate) (struct gpio_chip *gc, 

42 = const struct of _phandle args *gpiospec, u32 *flags); 
43#endif 


44}; 


的 GPIO APl 来 操作 GPIO， 这 些 API 主 要 用 于 GPIO 的 申请 、 释 放 和 设置 : 


通过 这 层 封装 ， 每 个 具体 的 要 用 到 GPIO 的 设备 驱动 都 使 用 通 


int gpio_request (unsigned gpio, const char *label); 
void gpio free (unsigned gpio); 
int gpio direction input (unsigned gpio); 
int gpio direction output (unsigned gpio, int value); 
int gpio set debounce (unsigned gpio, unsigned debounce); 
int gpio get value cansleep (unsigned gpio); 
void gpio set value cansleep (unsigned gpio, int value); 
int gpio request one (unsigned gpio, unsigned long flags, const char *label); 
int gpio_request_array(const struct gpio *array, size_t num); 
void gpio free array(const struct gpio *array, size_t num); 
int devm_gpio request (struct device *dev, unsigned gpio, const char *label); 
int devm gpio request_one (struct device *dev, unsigned gpio, 
= a ~ unsigned long flags, const char *label); 
void devm gpio_free (struct device *dev, unsigned int gpio); 


注意 : 内 核 中 针对 内 看、IRQ、 时 钟 、GPIO、pinctd、Regulator 都 有 以 devm_ 开 头 的 API， 使 用 这 部 分 API 的 时 候 ， 内 核 会 有 类 似 于 Java 的 资源 自动 回收 机 制 ， 因 此 在 代码 中 进行 出 错 处 理 时 ， 无 须 释放 相 
关 的 资源 。 


对 于 GPIO 而 言 ， 特 别 值得 一 提 的 是 ， 内 核 会 创建 /sys 节 点 /sys/class/gpio/gpioN/， 通 过 它 我 们 可 以 echo 值 从 而 改变 GPIO 的 方向 、 设 置 并 获取 GPIO 的 值 。 


在 拥有 设备 树 支 持 的 情况 下 ， 我 们 可 以 通过 设备 树 来 描述 某 GPIO 控 制 器 提供 的 GPIO 引 脚 被 具体 设备 使 用 的 情况 。 在 GPIO 控 制 器 对 应 的 节点 中 ， 需 定义 #gpio-cells 和 gpio-controller 属 性 ， 具 体 的 设 
备 节点 则 通过 xxx-gpios 属 性 来 引用 GPIO 控 制 器 节点 及 GPIO 引 脚 。 


如 VEXPRESS 电 路 板 DT 文件 archy/arm/boot/dts/vexpress-v2m.dtsi 中 有 如 下 GPIO 控 制 器 节点 : 


v2m_sysreg: sysreg@00000 { 

T compatible = "arm, vexpress-sysreg"; 
reg = <0x00000 0x1000>; 
gpio-controller; 

#gpio-cells = <2>; 
H 


VEXPRESS 电 路 板 上 的 MMC 控 制 器 会 使 用 该 节点 GP1O 控 制 器 提供 的 GPIO 引 脚 ， 则 具体 的 mmci@05000 设 备 节 点 会 通过 -gpios 属 性 引用 GPIO: 


mmci@05000 { 
compatible = "arm,pl180", "arm,primecell"; 
reg = <0x05000 0x1000>; 
interrupts = <9 10>; 
cd-gpios = <&v2m_sysreg 0 0>; 
wp-gpios = <&v2m sysreg 1 0>; 


li 


其 中 的 cd-gpios 用 于 SD/MMC 卡 的 探测 ， 而 wp-gpios 用 于 写 保护 ，MMC 主 机 控制 器 驱动 会 通过 如 下 方法 获取 这 两 个 GPIO， 详 见于 drivers/mmc/host/mmci.c: 


static void mmci_dt_populate_generic_pdata(struct device_node *np, 
struct mmci_platform_data *pdata) 
{ 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
pdata->gpio_wp = of get named gpio(np, "wp-gpios", 0); 
pdata->gpio cd = of _get_named_gpio(np, "cd-gpios", 0); 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


20.7 pinctrl 驱 动 


许多 SoC 内 部 都 包含 pin 控 制 器 ， 通 过 pin 控 制 器 的 寄存 器 ， 我 们 可 以 配置 一 个 或 者 一 组 引 脚 的 功能 和 特性 。 在 软件 上 ，Linux 内 核 的 pinctrl 驱 动 可 以 操作 pin 控 制 器 为 我 们 完成 如 下 工作 : 
“ 枚 举 并 且 命名 pin 控 制 器 可 控制 的 所 有 引 脚 ; 
“ 提供 引 脚 复 用 的 能 力 ; 


“ 提供 配置 引 脚 的 能 力 ， 如 驱动 能 力 、 上 拉 下 拉 、 开 漏 (Open Drain) 等 。 


1.pinctrl 和 引 脚 


在 特定 SoC 的 pinctrl 驱 动 中 ， 我 们 需要 定义 引 脚 。 假 设 有 一 个 PGA 封 装 的 芯片 的 引 脚 排 布 如 图 20.9 所 示 。 
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图 20.9 一 个 PGA 封 装 的 芯片 的 引 脚 排 布 


在 pinctrl 驱 动 初始 化 的 时 候 ， 需 要 向 pinctrl 子 系统 注册 一 个 pinctrl_desc 描 述 符 ， 该 描述 符 的 pins 成 员 中 包含 所 有 引 脚 的 列表 。 可 以 通过 代码 清单 20.16 的 方法 来 注册 这 个 pin 控 制 器 并 命名 它 的 所 有 引 


代码 清单 20.16 ”pinctrl 引 脚 描述 


1#include <linux/pinctrl/pinctrl.h> 
2 


3const struct pinctrl pin desc foo pins[] = { 

4 PINCTRL PIN (0, "A8"), = 

5 PINCTRL PIN(1, "B8"), 

6 PINCTRL PIN (2, "C8"), 

7 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
8 PINCTRL_PIN(61, "F1"), T 
9 PINCTRL PIN(62, "G1"), 

10 PINCTRL_PIN (63, "H1"), 

11} 

12 

13static struct pinctrl_desc foo desc = { 

14 .name = "foo", 

15 -pins = foo_pins, 

16 -npins = ARRAY SIZE(foo_pins), 

i7 .maxpin = 63, 

18 .Owner = THIS MODULE, 

19}; ~ 
20 
2lint _ init foo_probe (void) 
22{ 
23 struct pinctrl_dev *pctl; 
24 
25 petl = pinctrl register (&foo desc, <PARENT>, NULL); 
26 if (IS_ERR(pctI) ) 7 
27 pr_err ("could not register foo pin driver\n"); 
28} 


2. 引 脚 组 (Pin Group) 


在 pinctrl 子 系统 中 ， 支 持 将 一 组 引 脚 绑 定 为 同一 功能 。 假 设 (0，8，16，24} 这 一 组 引 脚 承担 SPI 的 功能 ， 而 {24，25} 这 一 组 引 脚 承担 |C 接 口 功 能 。 在 驱动 的 代码 中 ， 需 要 体现 这 个 分 组 关系 ， 并 且 为 这 
些 分 组 实现 pinctrl_ops 的 成 员 函 数 get groups count () 、get group_name () 和 get group_pins () ， 将 pinctrl_ops 填 充 到 前 文 pinctrl_desc 的 实例 foo_desc 中 ， 如 代码 清单 20.17 所 示 。 


代码 清单 20.17 ”pinctrl 驱 动 对 引 脚 分 组 


l#include <linux/pinctrl/pinctrl.h> 


2 

3struct foo_group { 

4 const char *name; 

5 const unsigned int *pins; 
6 const unsigned num_pins; 
T}; 

8 


9static const unsigned int spi0_pins[] { 0, 8, 16, 24 }; 


10static const unsigned int i2c0_pins[] { 24, 25 f; 

11 

12static const struct foo_group foo_groups[] = { 

13 { 

14 .name = "spi0_grp", 

15 .Pins = spi0 pins, 

16 .num pins = ARRAY SIZE(spi0_pins), 

17 }, 

18 { 

19 :name = "i2c0_grp", 

20 -pins = i2c0 pins, 

21 .num pins = ARRAY SIZE(i2c0_pins), 

22 }, 

23}; 

24 

25 

26static int foo_get_groups_count (struct pinctrl_dev *pctldev) 
27{ 

28 return ARRAY SIZE (foo_groups) ; 

29} 

30 

3lstatic const char *foo_get_group_name(struct pinctrl_dev *pctldev, 
32 0 = unsigned selector) 
33{ 

34 return foo_groups [selector] .name; 

35} E 

36 

37static int foo get_group_pins (struct pinctrl_dev *pctldev, unsigned selector, 
38 unsigned ** const pins, 

39 unsigned * const num pins) 

40{ 

41 *pins = (unsigned *) foo_groups[selector] .pins; 

42 *num pins = foo _groups [selector] .num pins; 

43 return 0; 

44} 

45 

46static struct pinctrl_ops foo_pctrl_ops = { 

47 .get_groups_count = foo_get_groups_count, 

48 .get_group_name = foo_get_group_name, 

49 -get_group_pins = foo_get_group_pins, 

50}; 

51 

52 

53static struct pinctrl_desc foo_desc = { 

54 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
55 -pctlops = &foo_pctrl_ops, ge 
56}; 


get_groups count () 成 员 函 数 用 于 告知 pinctrl 子 系统 该 SoC 中 合法 的 被 选 引 脚 组 有 多 少 个 ， 而 get_group_name () 则 提供 引 脚 组 的 名 字 ，get_ group_pins () 提供 引 脚 组 的 引 脚 表 。 在 设备 驱动 调 
pinctrl 通 用 API 使 能 某 一 组 引 脚 的 对 应 功能 时 ，pinctr| 子 系统 的 核心 层 会 调用 上 述 回调 函数 。 


3. 引 脚 配置 


设备 驱动 有 时 候 需 要 配置 引 脚 ， 壁 如 可 能 把 引 脚 设置 为 高 阻 或 者 三 态 (达到 类 似 断 连 引 脚 的 效果 ) ， 或 通过 某 阻 值 将 引 脚 上 拉 / 下 拉 以 确保 默认 状态 下 引 脚 的 电 平 状态 。 在 驱动 中 可 以 自 定义 相应 板 级 引 
脚 配置 API 的 细节 ， 辟 如 某 设备 驱动 可 能 通过 如 下 代码 将 某 引 脚 上 拉 : 


#include <linux/pinctrl/consumer.h> 
ret = pin config set ("foo-dev", "FOO_GPIO_PIN", PLATFORM X PULL UP); 


其 中 的 PLATFORM_X_PULL_UP 由 特定 的 pinctrl 驱 动 定义 。 在 特定 的 pinctrl 驱 动 中 ， 需 要 实现 完成 这 些 配置 所 需要 的 回调 函数 (pinctrl_desc 的 confops 成 员 函 数 ) ， 如 代码 清单 20.18 所 示 。 


代码 清单 20.18 引 脚 的 配置 


1#include <Linux/pinctrl/pinctrl .h> 
2#include <linux/pinctr1/pinconf .h> 
3#include "platform_x_pindefs.h" 


4 

Sstatic int foo_pin_config_get (struct pinctrl_dev *pctldev, 

6 unsigned offset, 

7 unsigned long *config) 

81{ 

9 struct my_conftype conf; 

10 

11 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... Find setting for pin @ offset http://www.hzcourse.com/resc 
12 

13 *config = (unsigned long) conf; 

14} 

15 

16static int foo_pin_config_set (struct pinctrl_dev *pctldev, 

17 unsigned offset, 

18 unsigned long config) 

19{ 
20 struct my_conftype *conf = (struct my_conftype *) config; 
21 
22 switch (conf) { 
23 case PLATFORM X PULL UP: 
24 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
25 } 
26 } 
27} 
28 
29static int foo_pin_config_group_get (struct pinctrl_dev *pctldev, 
30 unsigned selector, 

31 unsigned long *config) 

32{ 

33 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
34} 

35 

36static int foo_pin_config_group_set (struct pinctrl_dev *pctldev, 
37 unsigned selector, 

38 unsigned long config) 

39{ 

40 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
41} 

42 

43static struct pinconf_ops foo_pconf_ops = { 

44 -pin_config_get = foo_pin_config_get, 

45 -pin_config_set = foo_pin_config_set, 

46 -pin_config_group_get = foo_pin_config_group_get, 

47 -pin_config_group_set = foo_pin_config_group_set, 

48}; 


49 


50/* Pin config operations are handled by some pin controller */ 

Slstatic struct pinctrl_ desc foo desc = { 

52 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
53 .Confops = &foo_pconf_ops, 

54}; 


其 中 的 pin_config_group_get () . pin_config_group_set () 针对 的 是 可 同时 配置 一 个 引 脚 组 的 状态 情况 ， 而 pin_config_get () . pin_config_set () 针对 的 则 是 单个 引 脚 的 配置 。 


4 与 GPIO 子 系统 的 交互 


pinctrl 驱 动 所 覆盖 的 引 脚 可 同时 作为 GPIO 用 ， 内 核 的 GPIO 子 系统 和 pinctr| 子 系统 本 来 是 并 行 工作 的 ， 但 是 有 时 候 需 要 交叉 映射 ， 在 这 种 情况 下 ， 需 要 在 pinctrl 驱 动 中 告知 pinctr| 子 系统 核心 屋 GPIO 与 
底层 pinctrl 驱 动 所 管理 的 引 脚 之 间 的 映射 关系 。 假 设 pinctrl 驱 动 中 定义 的 引 脚 32~47 与 gpio_chip 实 例 chip_a 的 GPIO 对 应 ， 引 脚 64~71 与 gpio_chip 实 例 chip_b 的 GPIO 对 应 ， 即 映射 关系 为 : 


al 


chip a: 


- GPIO range : [32 http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/.. 47] 

- pin range : [32 http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/.. 47] 
chip b: 

- GPIO range : [48 http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/.. 55] 

- pin range : [64 http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/.. 71] 


， 如 代码 清单 20.19 所 示 。 


则 在 特定 pinctrl 驱 动 中 可 以 通过 如 下 代码 注册 两 个 GPIO 范 有 


代码 清单 20.19 ”GPIO 与 pinctrl 引 脚 的 映射 


lstruct gpio chip chip a; 
2struct gpio chip chip b; 
3 


4static struct pinctrl_gpio_range gpio_range_a = { 


.name = "chip a", 
6 .id = 0, 
7 -base = 32, 
8 .Pin base = 32, 
9 -npins = 16, 
10 .gc = &chip a; 
11}; ~ 
12 
13static struct pinctrl_gpio range gpio_ range b = { 
14 .name = "chip b", `~ 7 i 
15 .id = 0, 
16 .base = 48, 
i7 .Pin base = 64, 
18 .npins = 8, 
19 .gc = &chip b; 
20}; a 
21 
22{ 
23 struct pinctrl_dev *pctl; 
24 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
25 pinctrl_add_gpio_range(pctl, &gpio_range_a); E 
26 pinctrl_add_gpio_range(pctl, &gpio_range_b); 
27} 


在 基于 内 核 gpiolib 的 GPIO 驱 动 中 ， 若 设备 驱动 需 进行 GPIO 申 请 gpio_request () 和 释放 gpio free () ，GPIO 驱 动 则 会 调用 pinctrl 子 系统 中 的 pinctrl_ request gpio () 和 pinctrl free gpio () 通 
API，pinctrl 子 系统 会 查找 申请 的 GPIO 和 引 脚 的 映射 关系 ， 并 确认 引 脚 是 否 被 其 他 复 用 功能 所 占用 。 与 pinctrl 子 系统 通用 层 pinctrl_ request gpio () 和 pinctrl free gpio () API 对 应 ， 在 底层 的 具体 
pinctrl 驱 动 中 ， 需 要 实现 pinmux_ops 结 构 体 的 gpio_request_ enable () 和 gpio_disable free () 成 员 函 数 。 


BRT gpio_request_enable () 和 gpio disable free () 成 员 函 数 外 ，pinmux_ops 结 构 体 主要 还 用 来 封装 pinmux 功 能 使 能 /禁止 的 回调 函数 ， 下 面 可 以 看 到 它 的 更 多 细节 。 


5. 引 脚 复 用 (pinmux) 


在 pinctrl 驱 动 中 可 处 理 引 脚 复 用 ， 它 定义 了 功能 (FUNCTIONS) ， 了 驱动 可 以 设置 某 功能 的 使 能 或 者 禁止 。 各 个 功能 联合 起 来 组 成 一 个 一 维 数组 ， 壁 如 {spi0，i2c0，mmc0) 就 描述 了 3 个 不 同 的 功能 。 


网 


20.10 所 示 。 


一 个 特定 的 功能 总 是 要 求 由 一 些 引 脚 组 来 完成 ， 引 脚 组 的 数量 可 以 为 1 个 或 者 多 个 。 假 设 对 前 文 所 描述 的 PGA 封 装 的 SoC 而 言 ， 引 脚 分 组 如 


假设 12C 功 能 由 {A5，B5} 引 脚 组 成 ， 而 在 定义 引 脚 描述 的 pinctrl_pin_desc 结 构 体 实例 foo_pins 的 时 候 ， 将 它们 的 序号 定义 为 了 {24，25}; 而 SPI 功 能 则 可 以 由 {A8，A7，A6，A5) 和 
{G4，G3，G2，G1}， 即 {0，8，16，2 人 和 {38，46，54，62} 两 个 引 脚 组 完成 (注意 在 整个 系统 中 ， 引 脚 组 的 名 字 不 会 重 码 ) 。 


此 在 设置 某 组 引 脚 的 作用 时 ，pinctrl 的 核心 层 会 将 功能 的 序号 以 及 引 脚 组 的 序号 传递 给 底层 pinctrl 驱 动 中 相关 的 回调 函数 。 


据 此 ， 由 功能 和 引 脚 组 的 组 合 就 可 以 决定 一 组 引 脚 在 系统 里 的 作 
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图 20.10 ”针对 PGA 封 装 的 SoC 的 引 脚 分 组 


在 整个 系统 中 ， 驱 动 或 板 级 代码 调用 pinmux 相 关 的 API 获 取 引 脚 后 ， 会 形成 一 个 pinctrl、 使 用 引 脚 的 设备 、 功 能 、 引 脚 组 的 映射 关系 ,假设 在 某 电路 板 上 ， 将 让 spi0 设 备 使 用 pinctrl0 的 fspi0 功 能 以 及 
gspi0 引 脚 组 ， 让 i2c0 设 备 使 用 pinctrl0 的 fi2c0 功 能 和 gi2c03 引 脚 组 ， 我 们 将 得 到 如 下 的 映射 关系 : 


{ 
{"map-spi0", spi0, pinctrl0, fspi0, gspi0}, 
{"map-i2c0", i2c0, pinctrl0, fi2c0, gi2c0} 
} 


pinctr| 子 系统 的 核心 会 保证 每 个 引 脚 的 排他 性 ， 因 此 一 个 引 脚 如 果 已 经 被 某 设备 用 掉 了 ， 而 其 他 的 设备 又 申请 该 引 脚 以 行使 其 他 的 功能 或 GPIO， 则 pinctrl 核 心 层 会 让 该 次 申请 失败 。 


在 特定 pinctrl| 驱 动 中 pinmux 相 关 的 代码 主要 处 理 如 何 使 能 /禁止 某 一 {功能 ， 引 脚 组 } 的 组 合 ， 壁 如 ， 当 spi0 设 备 申 请 pinctrl0 的 fspi0 功 能 和 gspi0 引 脚 组 以 便 将 gspi0 引 脚 组 配置 为 SPI 接 口 时 ， 相 关 的 回 
调 函 数 被 组 织 进 一 个 pinmux_ops 结 构 体 中 ， 而 该 结构 体 的 实例 最 终 成 为 前 文 pinctrl_desc 的 pmxops 成 员 ， 如 代码 清单 20.20 所 示 。 


代码 清单 20.20 ”pinmux 的 实现 


1#include <linux/pinctrl/pinctrl.h> 
2#include <linux/pinctrl/pinmux.h> 


3 

A4struct foo_group { 

5 const char *name; 

6 const unsigned int *pins; 
7 const unsigned num pins; 
8}; 

9 


{ 0, 8, 16, 24 }; 
{ 38, 46, 54, 62 }; 


10static const unsigned spi0 0 pins[ 
11static const unsigned spi0 1 pins[ 


12static const unsigned i2c0_pins[] 24, 25 }; 
£56 p50 hy 
14static const unsigned mmc0 2 pins[ { 58, 59 }; 


] 
] 
13static const unsigned mmc0 1 pins[] 
] 
] 


15static const unsigned mmc0_ 3 pins[ { 60, 61, 62, 63 }; 


16 

17static const struct foo_group foo_groups[] = { 

18 { 

19 .name = "spi0_0_grp", 

20 -pins = spi0 0 pins, 

21 -num pins = ARRAY SIZE(spi0_0 pins), 
22 , 

23 { 

24 «name = "spi0 1 grp", 

25 .pins = spi0 pins, 

26 -num pins = ARRAY SIZE(spi0_1 pins), 
27 }, 

28 { 

29 .name = "i2c0 grp", 

30 .pins = i2c0 pins, 

31 .num pins = ARRAY SIZE(i2c0_pins), 
32 }， 

33. { 

34 «name = "mmc0 1 grp", 

35 .pins = mmc0 T pins, 

36 .num pins = ARRAY SIZE (mmc0 1 pins), 
37 Fi 

38 { 

39 .name = "mmc0 2_ grp", 

40 -pins = mmc0 2 pins, 

41 -num pins = ARRAY SIZE (mmc0 2 pins), 
42 }, 

43 { 

44 -name = "mmc0 3_grp", 

45 -pins = mmc0 3 pins, 

46 .num pins = ARRAY SIZE (mmc0 3 pins), 
al , 

48}; 

49 

50 


Slstatic int foo get groups count (struct pinctrl_dev *pctldev) 
52{ 


53. return ARRAY SIZE (foo_groups) ; 

54} 

55 

56static const char *foo_get_group_name(struct pinctrl_dev *pctldev, 
57 a a unsigned selector) 
58{ 

59 return foo groups [selector] .name; 

60} 

61 

62static int foo_get_group_pins(struct pinctrl_dev *pctldev, unsigned selector, 
63 unsigned ** const pins, 

64 unsigned * const num_pins) 
65{ 

66 *pins = (unsigned *) foo_groups[selector] .pins; 
67 *num_pins = foo_groups [selector] .num pins; 

68 return 0; 

69} 

70 

71static struct pinctrl_ops foo_pctrl_ops = { 

72 .get_groups_count = foo_get_groups_count, 

73 .get group name = foo_get_group_name, 

74 -get_group_pins = foo_get_group_pins, 

75}; 

76 

77struct foo pmx func { 

78 const char *name; 

79 const char * const *groups; 

80 const unsigned num groups; 

81}; 

82 


83static const char * const spi0_groups[] 
84static const char * const i2c0_groups[] 
85static const char * const mmc0_groups[] 


= { "spi0_0_grp", "spi0_1_grp" }; 
{ "i2c0_grp" }; 
= { "mmc0_1_grp", "mmc0_2_grp", 


86 "mmc0_ 3 grp™ }; 
87 Pace 
88static const struct foo pmx func foo_functions[] = { 
89 { 

90 .name = "spi0", 

91 «groups = spi0 groups, 

92 .num groups = ARRAY SIZE(spi0_groups), 
93 b 

94 { 

95 .name = "i2c0", 

96 .groups = i2c0_groups, 

97 -num groups = ARRAY SIZE (i2c0_groups), 
98 , 

99 { 

100 .name = "mmc0", 

101 «groups = mmc0_groups, 

102 .num groups = ARRAY SIZE (mmc0_groups), 
103 hy 

104}; 

105 

106int foo_get_functions_count (struct pinctrl_dev *pctldev) 
107{ 

108 return ARRAY SIZE(foo_functions) ; 

109} 

110 


111const char *foo_get_fname(struct pinctrl_dev *pctldev, unsigned selector) 
112{ 


113 return foo_functions[selector] .name; 

114} 7 

115 

116static int foo_get_groups(struct pinctrl_dev *pctldev, unsigned selector, 
117 cd const char * const **groups, 

118 unsigned * const num groups) 

119{ = 

120 *groups = foo_functions [selector] .groups; 

121 *num_groups = foo_functions [selector] .num_groups; 

122 return 0; 

123} 

124 

125int foo_enable(struct pinctrl_dev *pctldev, unsigned selector, 
126 E unsigned group) 

127{ 

128 u8 regbit = (1 << selector + group); 

129 

130 writeb ( (readb (MUX) |regbit), MUX) 

131 return 0; 

132} 

133 

134void foo_disable(struct pinctrl_dev *pctldev, unsigned selector, 
135 = unsigned group) 

136{ 

137 u8 regbit = (1 << selector + group); 

138 


139 writeb ( (readb (MUX) & ~(regbit)), MUX) 


140 return 0; 


141} 

142 

143struct pinmux_ops foo_pmxops = { 

144 -get_functions_count = foo_get_functions_count, 
145 .get function name = foo_get_fname, 

146 .get function groups = foo_get_groups, 

147 .enable = foo enable, 

148 .disable = foo disable, 

149}; 

150 


151/* Pinmux operations are handled by some pin controller */ 
152static struct pinctrl desc foo desc = { 


153 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/.. 
154 -pctlops = &foo_pctrl_ops, 

155 .pmxops = &foo_pmxops, 

156}; 


具体 的 pinctrl、 使 用 引 脚 的 设备 、 功 能 、 引 脚 组 的 映射 关系 ， 可 以 在 板 文件 中 通过 定义 pinctrl_map 结 构 体 的 实例 来 展开 ， 如 : 


static struct pinctrl_ map __initdata mapping[] = { 
PIN MAP MUX GROUP ("foo-i2c.o", PINCTRL_STATE DEFAULT, "pinctrl-foo", NULL, "i2c0"), 
i 


又 由 于 1 个 功能 可 由 两 个 不 同 的 引 脚 组 实现 ， 所 以 对 于 同 1 个 功能 可 能 形成 有 两 个 可 选 引 脚 组 的 pinctrl map: 


static struct pinctrl_map __initdata mapping[] = { 
PIN MAP MUX GROUP ("foo-spi.0", "spi0-pos-A", "pinctrl-foo", "spi0 0 grp", "spi0"), 
PIN MAP MUX_GROUP("foo-spi.0", "spi0-pos-B", "pinctrl-foo", "spi0 1 grp", "spi0"), 
Mi 


其 中 调用 的 PIN_MAP_MUX_GROUP 是 一 个 快捷 宏 ， 用 于 赋值 pinctrl_map 的 各 个 成 员 : 


#define PIN MAP MUX GROUP (dev, state, pinctrl, grp, func) 
{ 
.dev name = dev, 
.name = state, 
.type = PIN MAP TYPE MUX GROUP, 
.Ctrl dev name = pinctrl, 
.data.mux = { 
-group = grp; 
«function = func, 


ee eee ae 


] 


当然 ， 这 种 映射 关系 最 好 是 在 设备 树 中 通过 节点 的 属性 进行 ， 具 体 的 节点 属性 的 定义 方法 依赖 于 具体 的 pinctrl 驱 动 ， 最 终 在 pinctrl 驱 动 中 通过 pinctrl ops 结 构 体 的 .dt_node to map () 成 员 函 数 读 出 
属性 并 建立 映射 表 。 


在 运行 时 ， 我 们 可 以 通过 类 似 的 API 去 查找 并 设置 位 置 A 的 引 脚 组 以 行驶 SPI 接 口 的 功能 : 


devm pinctrl_get (dev) ; 
pinctrl_lookup_state(p, "spi0-pos-A "); 


p= 
s= ue 
ret = pinctrl_select_state(p, s) 


或 者 可 以 更 加 简单 地 使 


p = devm_pinctrl_get_select (dev, "spi0-pos-A") ; 


若 想 在 运行 时 切换 位 置 A 和 B 的 引 脚 组 以 行使 SPI 的 接口 功能 ， 代 码 结构 类 似 清 单 20.21 所 示 。 


代码 清单 20.21 pinctrl_lookup_state () 和 pinctrl_select stat () 


1f£00_probe () 
21 
3 /* Setup */ 
4 p = devm_pinctrl_get (&device) ; 
5 if (IS_ERR(p)) 
6 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
7 
8 sl = pinctrl_lookup_state(foo->p, " spi0-pos-A") 7 
9 if (IS_ERR(s1)) 
10 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
11 
12 s2 = pinctrl_lookup_state(foo->p, " spi0-pos-B") ; 
ats, if (IS_ERR(s2) ) 
14 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
15} 
16 
17£00_switch () 
18{ 
19 /* Enable on position A */ 
20 ret = pinctrl_select_state(s1); 
21 if (ret < 0) 
22 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
23 
24 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
25 
26 /* Enable on position B */ 
27 ret = pinctrl_select_state(s2) ; 
28 if (ret < 0) 
29 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
30 
31 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
32} 


对 于 "default" 状 态 下 的 引 脚 配置 ， 驱 动 一 般 不 需要 完成 devm_pinctrl_get_select (dev, “default") 的 调用 。 壁 如 对 于 arch/arm/boot/dts/prima2-evb.dts 中 的 如 下 引 脚 组 : 


peri-iobg { 
uart@b0060000 { 
pinctrl-names = "default"; 
pinctrl-0 = <éuart1_pins_a>; 
Mi 
spi@b00d0000 { 
pinctrl-names = "default"; 
pinctrl-0 = <&spi0_pins_a>; 
ti 
spi@b0170000 { 


pinctrl-names = "default"; 
pinctrl-0 = <&spil pins a>; 
Mi 
i 


由 于 pinctrl-names 都 是 "default" 的 ， 所 以 pinctrl 核 实际 会 自动 做 类 似 devm_pinctrl_get_select (dev, “default") 的 操作 。 


20.8 时钟 驱动 


在 一 个 SoC 中 ， 晶 振 、PLL、 驱 动 和 门 等 会 形成 一 个 时 钟 树 形 结构 ， 在 Linux 2.6 中 ， 也 存 有 clk_get_rate () 、clk_set rate () 、clk_get parent () 、clk_set_parent () 等 通用 AP1， 但 是 这 些 API 由 
每 个 SoC 单 独 实现 ， 而 且 各 个 SoC 供 应 商 在 实现 方面 的 差异 很 大 ， 于 是 内 核 增加 了 一 个 新 的 通用 时 钟 框架 以 解决 这 个 碎片 化 问题 。 之 所 以 称 为 通用 时 钟 ， 是 因为 这 个 通用 主要 体现 在 : 


1) 统一 的 clk 结 构 体 ， 统 一 的 定义 于 clk.h 中 的 clk AP1， 这 些 API 会 调用 统一 的 clk_ops 中 的 


回 


调 函 数 ; 这 个 统一 的 clk 结 构 体 的 定义 如 代码 清单 20.22 所 示 。 


代码 清单 20.22 “ck 结构 体 


1struct clk { 
2 


const char *name; 

3 const struct clk_ops *ops; 

4 struct clk_hw *hw; 

5 char T **parent_names; 

6 struct clk **parents; 

1 struct clk *parent; 

8 struct hlist_head children; 

9 struct hlist node child node; 
10 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
11}; 


其 中 第 3 行 的 clk_ops 定 义 是 关于 时 钟 使 能 、 禁 止 、 计 算 频率 等 的 操作 集 ， 定 义 如 代码 清单 20.23 所 示 。 


代码 清单 20.23 ”clk_ops 结 构 体 


lstruct clk ops { 
2 i (*prepare) (struct clk hw *hw); 

3 (*unprepare) (struct clk hw *hw); 

4 (*enable) (struct clk hw *hw) ; 

5 void (*disable) (struct clk hw *hw); 

6 i (*is_enabled) (struct clk hw *hw); 

7 (*recalc rate) (struct clk hw *hw, 

8 unsigned Iong parent rate); 


* 
* 


9 long (*round_rate) (struct clk_hw *hw, unsigned long, 
10 unsigned long *); 

11 int (*set_parent) (struct clk_hw *hw, u8 index); 

12 u8 (*get_parent) (struct clk hw *hw); 

13 int (*set_rate) (struct clk hw *hw, unsigned long); 
14 void (*init) (struct clk hw *hw); 

15}; 


2) 对 具体 的 SoC 如 何 去 实 现 针对 自己 SoC 的 clk 驱 动 ， 如 何 提供 硬件 特定 的 回调 函数 的 方法 也 进行 了 统一 。 


在 代码 清单 20.22 这 个 通用 的 clk 结 构 体 中 ， 第 4 行 的 clk_hw 是 联系 clk_ops 中 回调 函数 和 具体 硬件 细节 的 纽带 ，clk_hw 中 只 包含 通用 时 钟 结构 体 的 指针 以 及 具体 硬件 的 init 激 据 ， 如 代码 清单 20.24 所 示 。 


代码 清单 20.24 ”clk_hw 结 构 体 


lstruct clk hw { 

2 struct clk *clk; 

3 const struct clk init data *init; 
4} 


其 中 的 clk_init_data 包 含 了 具体 时 钟 的 名 称 、 可 能 的 父 级 时 钟 的 名 称 列表 parent_names、 可 能 的 父 级 时 钟 数 量 num_parents 等 ， 实 际 上 这 些 名 称 的 匹配 对 建立 时 钟 间 的 父子 关系 功 不 可 没 ， 如 代码 清单 
20.25 所 示 。 


代码 清单 20.25 clk_init_data 结 构 体 


lstruct clk init data { 


2 const char *name; 

3 const struct clk_ops *ops; 

4 const char **parent_ names; 
5 u8 num_parents; 

6 unsigned long flags; 

T}; 


从 ck 核心 层 到 具体 芯片 ck 驱动 的 调用 顺序 为 : 


clk_enable (clk) ; Sclk->ops->enable (clk->hw) ; 


通用 的 clk API (如 clk_enable) 在 调 


底层 clk 结 构 体 的 clk_ops 成 员 函 数 (如 clk->ops->enable) 时 ,会 将 clk->hw 传 递 过 去 。 


一 般 在 具体 的 驱动 中 会 定义 针对 特定 clk (如 foo) 的 结构 体 ， 该 结构 体 中 包含 ck_hw 成 员 以 及 硬件 私有 数据 : 


struct clk foo { 
struct clk hw hw; 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... hardware specific data goes here http://www.hzcourse.com/resc 


i 


并 定义 to_clk_ foo () 宏 ， 以 便 通 过 clk_hw 获 取 clk_foo: 


#define to clk foo( hw) container of( hw, struct clk foo, hw) 


在 针对 clk_foo 的 clk_ops 的 回调 函数 中 ， 我 们 便 可 以 通过 clk_hw 和 to_clk_foo 最 终 获得 硬件 私有 数据 ， 并 访问 硬件 读 写 寄存 器 以 改变 时 钟 的 状态 : 


struct clk ops clk foo ops { 
.enable = &clk_foo_enable; 
.disable = &clk_foo_disable; 


li 
int clk_foo_enable(struct clk_hw *hw) 
{ 


struct clk_foo *foo; 
foo = to clk foo (hw); 


/* 访问 硬件 读 写 寄存 器 以 改变 时 钟 的 状态 */ 


return 0; 


li 


在 具体 的 clk 驱 动 中 ， 需 要 通过 clk_register () 以 及 它 的 变 体 注 册 硬 件 上 所 有 的 clk， 通 过 clk_register_clkdev () 注册 clk 的 一 个 lookup (这 样 可 以 通过 con_id 或 者 dev id 字符 串 寻 找到 这 个 clk) ， 这 
两 个 函数 的 原型 为 : 


struct clk *clk_register(struct device *dev, struct clk_hw *hw); 
int clk_register_clkdev(struct clk *clk, const char *con_id, 
const char *dev_fmt, http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/...) 7 


另外 ， 针 对 不 同 的 clk 类 型 (如 固定 频率 的 clk、<clk 门 、clk 驱 动 等 ) ，clk 子 系统 又 提供 了 几 个 快捷 函数 以 完成 clk_register () 的 过 程 : 


struct clk *clk_register fixed rate (struct device *dev, const char *name, 
“const char *parent_name, unsigned long flags, 
unsigned long fixed_rate); 

struct clk *clk register gate (Struct device *dev, const char *name, 
“const char *parent_name, unsigned long flags, 
void _iomem *reg, u8 bit_idx, 
u8 clk gate flags, spinlock t *lock); 

struct clk *clk_register_divider(struct device *dev, const char *name, 
“const char *parent_name, unsigned long flags, 
void iomem *reg, u8 shift, u8 width, 
u8 clk divider flags, spinlock_t *lock); 


以 drivers/clk/clk-prima2.c 为 例 ， 与 该 驱动 对 应 的 芯片 SiRFprimall 的 外 四 
点 ， 则 它 的 相关 驱动 代码 如 清单 20.26 所 示 。 


接 了 一 个 26MHz 的 晶振 和 一 个 32.768kHz 的 RTC 晶 振 ， 在 26MHz 晶 振 的 后 面 又 有 3 个 PLL， 当 然 PLL 后 面 又 接 了 更 多 的 clk 节 


代码 清单 20.26 “clk 驱 动 案例 


lstatic unsigned long pll_clk_recalc_rate(struct clk hw *hw, 
2unsigned long parent_rate) 

3{ 

4unsigned long fin = parent_rate; 

Sstruct clk pll *clk = to pllclk (hw); 

Gar 


7} 
8 
9static long pll_clk_round_rate(struct clk hw *hw, unsigned long rate, 


10unsigned long *parent_rate) 
11{ 


15static int pll_clk_set_rate (struct clk hw *hw, unsigned long rate, 
16unsigned long parent_rate) 

17{ “i 

Taes 

15} 

20 

21static struct clk ops std_pll_ops = { 
22.recalc_rate = pll_clk_recalc_rate, 

23.round rate = pll clk round rate, 

24.set rate = pll clk set rate, 

25}; 

26 

27static const char *pll clk parents[] = { 
28"osc", 

29}; 

30 

31static struct clk_init_data clk_plll_init = { 
32.name = "p111", 

33.ops = &std_pll_ops, 

34.parent_names = pll_clk parents, 
35.num_parents = ARRAY SIZE(pll_clk parents), 
36}; 

37 

38static struct clk_init_data clk_pll2_init = { 
39.name = "p112", 

40.ops = &std_pll ops, 

41.parent_names = pll clk parents, 

42 .num parents = ARRAY SIZE(pll_clk parents), 
43}; 

44 

45static struct clk init data clk pll3 init = { 
46.name = "p113", 

47.ops = &std_pll ops, 

48.parent_names = pll clk parents, 

49.num parents = ARRAY SIZE(pll_clk parents), 
50}; 

51 

52static struct clk_pll clk_plll = { 

53.regofs = SIRFSOC_CLKC PLL1 CFGO, 

54.hw = { T = T 

55 .init = &clk_plll_init, 

56}, g 本 

57}; 

58 

59static struct clk_pll clk pl12 = { 

60.regofs = SIRFSOC CLKC PLL2 CFGO, 

61.hw = { ee a ee 

62 .init = &clk_pll2_init, 

63}, i z 

64}; 

65 

66static struct clk pll clk p113 = { 

67.regofs = SIRFSOC CLKC PLL3 CFGO, 

68.hw = { T = T 

69 .init = &clk P113 init, 

70}, p T 

71}; 

72void _ init sirfsoc_of_clk_init (void) 

73{ 

Jhs 

75 

76/* These are always available (RTC and 26MHz OSC)*/ 
77clk = clk register fixed rate (NULL, "rtc", NULL, 
78 CLK_IS ROOT, 32768); 

79BUG ON(!clK) ~ 

80clk = clk register fixed rate (NULL, "osc", NULL, 


81 CLK_IS ROOT, 26000000) ; 
82BUG_ON(!clk) ; 
83 


84clk = clk_register(NULL, &clk_pll1l.hw); 
85BUG_ON(!clk); 

86clk = clk_register (NULL, &clk pl12.hw); 
87BUG_ON(!clk); 

88clk = clk_register (NULL, &clk_p113.hw); 
89BUG_ON(!clk); 

30… 一 

91} 


另外 ， 目 前 内 核 更 加 倡导 的 方法 是 通过 设备 树 来 描述 电路 板 上 的 时 钟 树 ， 以 及 时 钟 和 设备 之 间 的 绑 定 关系 。 通 常 我 们 需要 在 clk 控 制 器 的 节点 中 定义 #clock-cells 属 
of _clk_add provider () 注册 时 钟 控制 器 为 一 个 时 钟 树 的 提供 者 (Provider) ， 并 建立 系统 中 各 个 时 钟 和 索引 的 映射 表 ， 如 : 


性 ， 并 且 在 clk 驱 动 中 通过 


sys 
security 
dsp 
gps 
mf 


© 


在 每 个 具体 的 设备 中 ， 对 应 的 .dts 节 点 上 的 clocks=<&clks index> 属 性 指向 其 引用 的 clk 控 制 器 节点 以 及 使 用 的 时 钟 的 索引 ， 如 : 


gps@a8010000 { 
compatible = "sirf,prima2-gps"; 
reg = <0xa8010000 0x10000>; 
interrupts = <7>; 
clocks = <&clks 9>; 


要 特别 强调 的 是 ， 在 具体 的 设备 驱动 中 ， 一 定 要 通过 通用 clk APl 来 操作 所 有 的 时 钟 ， 而 不 要 直接 通过 读 写 clk 控 制 器 的 寄存 器 来 进行 ， 这 些 API 包 括 : 


struct clk *clk get (struct device *dev, const char *id); 
struct clk *devm clk get (struct device *dev, const char *id); 
int clk enable (struct clk *clk); 

int clk prepare (struct elk *é61k); 

void clk_unprepare (struct clk *clk); 

void clk « disable (struct clk *clk); 

static inline int clk_prepare_enable(struct clk *clk); 
static inline void clk_disable unprepare(struct clk *clk); 
unsigned long clk_get_rate(struct clk *clk); 

int clk_set_rate(struct clk *clk, unsigned long rate); 
struct Clk *clk .get Parent (struct clk *clk); 

int clk set parent (struct clk *clk, struct clk *parent); 


值得 一 提 的 是 ， 名 称 中 含有 prepare、unprepare 字 符 串 的 APl 是 内 核 后 来 才 加 入 的 ， 过 去 只 有 clk_enable () 和 clk_disable () 。 只 有 clk_enable () 和 clk_disable () 带 来 的 问题 是 ， 有 时 候 ， 某 些 
硬件 使 能 /禁止 时 钟 可 能 会 引起 睡眠 以 使 得 使 能 /禁止 不 能 在 原子 上 下 文 进行 。 加 上 prepare 后 ， 把 过 去 的 clk_enable () 分 解 成 不 可 在 原子 上 下 文 调用 的 clk_prepare () (该 函数 可 能 睡眠 ) 和 可 以 在 原子 
上 下 文 调用 的 clk_enable () 。 而 clk_prepare_enable () 则 同时 完成 准备 和 使 能 的 工作 ， 当 然 也 只 能 在 可 能 睡眠 的 上 下 文 调用 该 AP1。 


20.9 ”dmaengine 驱 动 


dmaengine 是 一 套 通用 的 DMA 驱 动 框架 ,该 框架 为 具体 使 用 DMA 通 道 的 设备 驱动 提供 了 一 套 统一 的 APl， 而 且 也 定义 了 用 具体 的 DMA 控 制 器 实现 这 一 套 API 的 方法 。 


对 于 使 用 DMA 引 警 的 设备 驱动 而 言 ， 发 起 DMA 传 输 的 过 程 变 得 整洁 了 ， 如 在 sound 子 系统 的 sound/soc/soc-dmaengine-pcm.c 中 ,会 使 用 dmaengine 进 行 周期 性 的 DMA 传 输 ， 相 关 的 代码 如 清单 
20.27 所 示 。 


代码 清单 20.27 dmaengine API 的 使 


lstatic int dmaengine pcm prepare and submit (struct snd_pcm_substream *substream) 


2{ 

3 struct dmaengine pcm runtime data *prtd = substream_to_prtd(substream) ; 
4 struct dma chan *chan = prtd= >dma_chan; 

5 struct dma_async tx descriptor *desc; 

6 enum dma _ transfer direction direction; 

7 unsigned long flags = DMA CTRL ACK; 

8 

9 ji 

10 desc = dmaengine_prep_dma_cyclic(chan, 

下 于 substream->runtime->dma_addr, 

12 snd pom lib buffer bytes (substream) i 

13 snd pcm lib period bytes (substream), direction, flags); 
14. 

15 desc->callback = dmaengine_ pcm dma complete; 

16 desc->callback param = substream; ~ 

17 prtd->cookie = dmaengine_submit (desc) ; 

18} 

19 

20int snd dmaengine_pcm trigger (struct snd_pcm_substream *substream, int cmd) 
21{ 

22 struct dmaengine_pcm_runtime_data *prtd = substream_to_prtd(substream) ; 
23 int ret; 

24 switch (cmd) { 

25 case SNDRV PCM TRIGGER START: 

26 ret = dmaengine pcm prepare_and submit (substream) ; 

27 ae 

28 dma_async_issue_pending (prtd->dma_chan) ; 

29 break; 

30 case SNDRV PCM TRIGGER RESUME: 

31 case SNDRV_PCM TRIGGER PAUSE RELEASE: 

32 dmaengine_resume (prtd->dma_chan) ; 

33 break; 

34 e 

35} 

这 个 过 程 可 分 为 4 步 : 


1) 通过 dmaengine_prep_dma_xxx () 初始 化 一 个 具体 的 DMA 传 输 描述 符 (本 例 中 为 结构 体 dma_async_tx_descriptor 的 实例 desc， 本 例 是 一 个 周期 性 DMA， 因 此 第 10 行 调用 的 是 


dmaengine prep dma cyclic () ) 。 


2) 通过 dmaengine_submit () 将 该 描述 符 插入 dmaengine 驱 动 的 传输 队列 ( 见 第 17 行 ) 。 


3) 在 需要 传输 的 时 候 通 过 类 似 dma_async issue_pending () 的 调用 启动 对 应 DMA 通 道上 的 传输 ( 见 第 28 行 ) 。 


4) DMA 的 完成 ， 或 者 周期 性 DMA 完 成 了 一 个 周期 ， 都 会 引发 DMA 传 输 描 述 符 的 完成 回调 函数 被 调用 (本 例 中 的 赋值 在 第 15 行 ， 对 应 的 回调 函数 是 dmaengine_pcm_dma_complete) 。 


也 就 是 不 管 具体 硬件 的 DMA 控 制 器 是 如 何 实现 的 ， 在 软件 意义 上 都 抽象 为 了 设置 DMA 描 述 符 、 将 DMA 描 述 符 插 入 传输 队列 以 及 启动 DMA 传 输 的 过 程 。 


除了 前 文 提 到 的 用 dmaengine_prep_dma_cyclic () 定义 周期 性 DMA 传 输 外 ， 还 有 一 组 类 似 的 API 可 以 用 来 定义 各 种 类 型 的 DMA 描 述 符 ， 特 定 硬件 的 DMA 驱 动 的 主要 工作 就 是 实现 封装 在 内 核 
dma_device 结 构 体 中 的 这 些 成 员 函 数 (定义 在 include/linux/dmaengine.h 头 文件 中 ) : 


< 
Ht kk Ok Ok E E E È 


a 


* 


struct dma device - info on the entity supplying DMA services 

@device_prep_dma memcpy: prepares a memcpy operation 

@device prep dma xor: prepares a xor operation 

@device_prep_dma_xor_val: prepares a xor validation operation 

@device prep dma pq: prepares a pq operation 

@device_prep dma pq val: prepares a pqzero_sum operation 

@device prep dma memset: prepares a memset operation 

Q@device prep dma interrupt: prepares an end of chain interrupt operation 

@device prep slave_sg: prepares a slave dma operation 

@device prep dma cyclic: prepare a cyclic dma operation suitable for audio. 
The function takes a buffer of size buf len. The callback function will 
be called after period len bytes have been transferred. 

@device_prep_interleaved_dma: Transfer expression in a generic way. 


在 底层 的 dmaengine 驱 动 实例 中 ， 一 般 会 组 织 好 这 个 dma_device 结 构 体 ， 并 通过 dma_async_device register () 完成 注册 。 在 其 各 个 成 员 函 数 中 ， 一 般 会 通过 链表 来 管理 DMA 描 述 符 的 运行 、free 
等 队列 。 


dma_device 的 成 员 函 数 device issue pending () 用 于 实现 DMA 传 输 开启 的 功能 ， 每 当 DMA 传 输 完 成 后 ， 在 驱动 中 注册 的 中 断 服务 程序 的 顶 半 部 或 者 底 半 部 会 调用 DMA 描 述 符 
dma_async tx_descriptor 中 设置 的 回调 函数 ， 该 回调 函数 来 源 于 使 用 DMA 通 道 的 设备 驱动 。 


典型 的 dmaengine 驱 动 可 见于 drivers/dma/ 目 录 下 的 sirf-dma.c、omap-dma.c、pl330.c、ste_dma40.c 等 。 


20.10 总结 


移植 Linux 到 全 新 的 SMP SoC 上 ， 需 在 底层 提供 定时 器 节拍 、 中 断 控制 器 、SMP 启 动 、GPIO、 时 钟 、pinctrl 等 功能 ， 这 些 底层 的 功能 被 封装 好 后 ， 其 他 设备 驱动 只 能 调用 内 核 提 供 的 通用 API。 这 良好 
地 体现 了 内 核 的 分 层 设 计 ， 即 驱动 都 调用 与 硬件 无 关 的 通用 AP1， 而 这 些 API 的 底层 实现 则 更 多 的 是 填充 内 核 规整 好 的 回调 函数 。 


Linux 内 核 社区 针对 pinctrl|、 时 钟 、GPIO、DMA 提 供 独立 的 子 系统 ， 既 给 具体 的 设备 驱动 提供 了 统一 的 AP1， 进 一 步 提高 了 设备 驱动 的 跨 平台 性 ， 又 为 每 个 SoC 和 设备 实现 这 些 底层 API 定 义 好 了 条 条 框 
框 ， 从 而 可 以 在 最 大 程度 上 避免 每 个 硬件 实现 过 多 的 匈 余 代码 。 


第 21 章 ”Linux 设 备 驱 动 的 调试 


本 章 导读 


工 欲 善 其 事 ， 必 先 利 其 器 ” ， 为 了 方便 进行 Linux 设 备 驱动 的 开发 和 调试 ， 建 立 良好 的 开发 环境 很 重要 ， 还 要 使 


必要 的 工具 软件 以 及 掌握 常用 的 调试 技巧 等 。 


21.1 节 讲解 了 Linux 下 调试 器 GDB 的 基本 用 法 和 技巧 。 


21.2 节 讲解 了 Linux 内 核 的 调试 方法 。 


21.3~21.10 节 对 21.3 节 的 概述 展开 了 讲解 ， 内 容 有 : Linux 内 核 调试 用 的 printk () 、BUG_ON () 、WARN_ON () 、/proc、Oops、strace、KGDB， 以 及 使 用 仿真 器 进行 调试 的 方法 。 


21.11 节 讲解 了 Linux 应 用 程序 的 调试 方法 ， 驱 动工 程 师 往往 需要 编写 用 户 空间 的 应 用 程序 以 对 自身 编写 的 驱动 进行 验证 和 测试 ， 因 此 ， 掌 握 应 用 程序 调试 方法 对 驱动 工程 师 而 言 也 是 必需 的 。 


21.12 节 讲解 了 Linux 常 用 的 一 些 稳定 性 、 性 能 分 析 和 调 优 工具 。 


21.1 


gl: 


GDB 调 试 器 的 用 法 


1 GDB 的 基本 用 法 


GDB 是 GNU 开 源 组 织 发 布 的 一 个 强大 的 UNIX 下 的 程序 调试 工具 ，GDB 主 要 可 帮助 工程 师 完成 下 面 4 个 方面 的 功能 。 


“ 启动 程序 ， 可 以 按照 工程 师 自 定义 的 要 求 运行 程序 。 


“ 让 被 调试 的 程序 在 工程 师 指定 的 断 点 处 停 住 ， 断 点 可 以 是 条 件 表 达 式 。 


- 当 程 序 被 停 住 时 ， 可 以 检查 此 时 程序 中 所 发 生 的 事 ， 并 追踪 上 文 。 


“ 动态 地 改变 程序 的 执行 环境 。 


不 管 是 调试 Linux 内 核 空 间 的 驱动 还 是 调试 用 户 空间 的 应 用 程序 ， 都 必须 掌握 GDB 的 用 法 。 而 且 ， 在 调试 内 核 和 调试 应 用 程序 时 使 用 的 GDB 命 令 是 完全 相同 的 ， 下 面 以 代码 清单 21.1 的 应 用 程序 为 例 演 


示 GDB 调 试 器 的 用 法 。 


代码 清单 21.1 ”GDB 调试 器 用 法 的 演示 程序 


lint add(int a, int b) 
2{ 


3 


return a + b; 


4} 

5 

6main () 

7{ 

8 int sum[10] = 

9 { 

10 0, 0, 0, 0, 0, 0, 0, 0, 0, 0 
11 }; 

12 int ij 


14 int arrayl[10] = 

15 { 

16 48, 56, 77, 33, 33, 11, 226, 544, 78, 90 
nla Aa oe 

18 int array2[10] = 

19 { 

20 85, 99, 66, 0x199, 393, 11, 1, 2, 3, 4 
21 }; 


23 for (i = 0; i < 10; i++) 

24 { 

25 sum[i] = add(arrayl[i], array2[i]); 
26 } 


使 用 命令 gcc-g gdb_example.c-o gdb_example 编 译 上 述 程序 ， 得 到 包含 调试 信息 的 二 进 制 文件 example， 执 行 gdb gdb_example 命 令 进入 调试 状态 ， 如 下 所 示 : 


$ gdb gdb_example 

GNU gdb (Ubuntu 7.7-Oubuntu3.1) 7.7 

Copyright (C) 2014 Free Software Foundation, Inc. 

License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html> 
This is free software: you are free to change and redistribute it. 

There is NO WARRANTY, to the extent permitted by law. Type "show copying" 
and "show warranty" for details. 

This GDB was configured as "i686-linux-gnu". 

Type "show configuration" for configuration details. 

For bug reporting instructions, please see: 

<http: //www.gnu.org/software/gdb/bugs/>. 

Find the GDB manual and other documentation resources online at: 
<http://www.gnu.org/software/gdb/documentation/>. 

For help, type "help". 

Type "apropos word" to search for commands related to "word". 

(gdb) 


1.list 命 令 


在 GDB 中 运行 list 命 令 (缩写 |) 可 以 列 出 代码 ，list 的 具体 形式 如 下 。 


+ list<linenum> ， 显 示 程 序 第 linenum 行 周围 的 源 程序 ， 如 下 所 示 : 


(gdb) list 15 
10 


11 int arrayl[10] = 

12 { 

13 48, 56, 77, 33, 33, 11, 226, 544, 78, 90 
14 i 

15 int array2[10] = 

16 { 

17 85, 99, 66, 0x199, 393, 11, 1, 2, 3, 4 
18 i 

19 


+ list<function>, ET 54E A functions) HAY BAP, w FÉR: 


gdb) list main 
{ 
return a + b; 


} 


( 

2 

3 

4 

5 

6 main () 
7 { 

8 int sum[10]; 
9 int i; 

10 

11 int arrayl[10] = 


“list， 显 示 当 前 行 后 面 的 源 程序 。 


' list-， 显 示 当 前 行 前 面 的 源 程序 。 


下 面 演示 了 使 用 GDB 中 的 run (缩写 为 r) 、break (缩写 为 bj) 、next (缩写 为 n) 命令 控制 程序 的 运行 ， 并 使 用 print (缩写 为 p) 命令 打印 程序 中 的 变量 sum 的 过 程 : 


(gdb) break add 

Breakpoint 1 at 0x80482f7: file gdb_example.c, line 3. 
(gdb) run 

Starting program: /driver_study/gdb_example 
Breakpoint 1, add (a=48, b=85) at gdb example.c:3 
warning: Source file is more recent than executable. 


3 return a + b; 

(gdb) next 

4 } 

(gdb) next 

main () at gdb example.c:23 

23 for (i = 0; i < 10; i++) 

(gdb) next 

25 sum[i] = add(arrayl[i], array2[i]); 


(gdb) print sum 
$1 = {133, 0, 0, 0, 0, 0, 0, 0, 0, 0} 


2.run 命 令 


在 GDB 中 ， 运 行程 序 使 用 run# 


=> 
a> 


。 在 程序 运行 前 ， 我 们 可 以 设置 如 下 4 方面 的 工作 环境 。 


(1) 程序 运行 参数 


set args 可 指定 运行 时 参数 ， 如 set args 10 20 30 40 50; 用 show args 命 令 可 以 查看 设置 好 的 运行 参数 。 


(2) 运行 环境 


path<dir> 可 设 定 程序 的 运行 路 径 ; 用 how paths 可 查看 程序 的 运行 路 径 ; 用 set environment varname[=value] 可 设置 环境 变量 ， 如 set env USER=baohua; 用 show environment[varname] 则 


可 查看 环境 变量 。 
(3) 工作 目录 
cd<dir> 相 当 于 shell 的 cd 命令 ，pwd 可 显示 当前 所 在 的 目录 。 


(4) 程序 的 输入 输出 


info terminal 用 于 显示 程序 用 到 的 终端 的 模式 ; 在 GDB 中 也 可 以 使 用 重 定向 控制 程序 输出 ， 如 run>outfile; 用 tty 命 令 可 以 指定 输入 输出 的 终端 设备 ， 如 tty/dev/ttyS1。 


3.break 命 令 


在 GDB 中 用 break 命 令 来 设置 断 点 ， 设 置 断 点 的 方法 如 下 。 


(1) break<function> 


在 进入 指定 函数 时 停 住 ， 在 C+ + 中 可 以 使 用 class: : function 或 function (type, type) 格式 来 指定 函数 名 。 


(2) break<linenum> 


在 指定 行 号 停 住 。 


(3) break+offset/break-offset。 


在 当前 行 号 的 前 面 或 后 面 的 offset 行 停 住 ，offiset 为 自然 数 。 


(4) break filename: linenum 


在 源 文件 filename 的 linenum 行 处 停 住 。 


(5) break filename: function 


在 源 文件 filename 的 function 函 数 的 入 口 处 停 住 。 


(6) break*address 
在 程序 运行 的 内 存 地 址 处 停 住 。 
(7) brea 


break 命 令 没有 参数 时 ， 表 示 在 下 一 条 指令 处 停 住 。 


(8) break...if<condition> 


以 是 上 述 的 break<linenum>、break+offset/break-offset 中 的 参数 ，condition 表 示 条 件 ， 在 条 件 成 立时 停 住 。 比 如 在 循环 体 中 ， 可 以 设置 break if i=100， 表 示 当 i 为 100 时 停 住 程序 。 


a 


查看 断 点 时 ， 可 使 用 info 命 令 ， 如 info breakpoints[n], info break[n] (n 表 示 断 点 号 ) 。 


4. 单 步 命令 


在 调试 过 程 中 ，next 命 令 用 于 单 步 执 行 ， 类 似 于 VC++ 中 的 step over。next 的 单 步 不 会 进入 函数 的 内 部 ， 与 next 对 应 的 step (缩写 为 s) 命令 则 在 单 步 执行 一 个 函数 时 ， 进 入 : 
的 step into。 下 面 演示 了 step 命 令 的 执行 情况 ， 在 第 23 行 的 add () 函数 调用 处 执行 step 会 进入 其 内 部 的 return a+b; 语句 : 


内 部 ， 类 似 于 VC++ 中 


(gdb) break 25 

Breakpoint 1 at 0x8048362: file gdb_example.c, line 25. 
(gdb) run 

Starting program: /driver_study/gdb_example 

Breakpoint 1, main () at gdb_example.c:25 


25 sum[i] = add(arrayl (i, array2[i]); 
(gdb) step 

add (a=48, b=85) at gdb example.c:3 

3 retum a +b; ` 


单 步 执 行 的 更 复杂 用 法 如 下 。 


(1) step<count> 


单 步 跟踪 ， 如 果 有 函数 调用 ， 则 进入 该 函数 (进入 函数 的 前 提 是 ， 此 函数 被 编译 有 debug 信 息 ) 。step 后 面 不 加 count 表 示 一 条 条 地 执行 ， 加 count 表 示 执 行 后 面 的 count 条 指令 ， 然 后 再 停 住 。 


(2) next<count> 


单 步 跟踪 ， 如 果 有 函数 调用 ， 它 不 会 进入 该 函数 。 同 理 ，next 后 面 不 加 count 表 示 一 条 条 地 执行 ， 加 count 表 示 执 行 后 面 的 count 条 指令 ， 然 后 再 停 住 。 


(3) set step-mode 


set step-mode on 用 于 打开 step-mode 模 式 ， 这 样 ， 在 进行 单 步 跟 踪 (运行 step 指 令 )》 时 ， 若 跨越 某 没有 调试 信息 的 函数 ， 程 序 的 执行 则 会 在 该 函数 的 第 一 条 指令 处 停 住 ， 而 不 会 跳 过 整个 函数 。 这 样 
我 们 可 以 查看 该 函数 的 机 器 指令 。 


(4) finish 


运行 程序 ， 直 到 当前 函数 完成 返回 ， 并 打印 函数 返回 时 的 堆栈 地 址 、 返 回 值 及 参数 值 等 信息 。 


(5) until (缩写 为 u) 


一 直 在 循环 体内 执行 单 步 而 退 不 出 来 是 一 件 令 人 烦恼 的 事 | 


until 命 令 可 以 运行 程序 直到 退出 循环 体 。 


af 


(6) stepi (485 Asi) 和 nexti (缩写 为 ni) 


stepi 和 nexti 用 于 单 步 跟踪 一 条 机 器 指令 。 比 如 ， 一 条 人 程序 代码 有 可 能 由 数 条 机 器 指令 完成 ，stepi 和 nexti 可 以 单 步 执 行 机 器 指令 ， 相 反 ，step 和 next 是 C 语 言 级 别 的 命令 。 


另外 ， 运 行 display/ipc 命 令 后 ， 单 步 跟 踪 会 在 打出 程序 代码 的 同时 打出 机 器 指令 ， 即 汇编 代码 。 


5.continue 命 令 


当 程 序 被 停 住 后 ， 可 以 使 用 continue 命 令 (缩写 为 c，fg 命 令 同 continue 命 令 ) 恢复 程序 的 运行 直到 程序 结束 ， 或 到 达 下 一 个 断 点 ， 命 令 格式 为 : 


continue [ignore-count 
c [ignore-count] 
fg [ignore-count] 


BRRNEETAŽ add () ， 并 观察 1， 则 在 continue 过 程 中 ， 每 次 遇 到 add () 函数 或 发 生变 化 ， 程 序 就 会 停 住 ， 如 下 所 示 : 


(gdb) continue 

Continuing. 

Hardware watchpoint 3: i 

Old value = 2 

New value = 3 

0x0804838d in main () at gdb example.c:23 


23 for (i = 0; i < 107 i++) 

(gdb) continue 

Continuing. 

Breakpoint 1, main () at gdb _example.c:25 

25 sum[i] = add (arrayl [i] , array2[i]); 
(gdb) continue 

Continuing. 


Hardware watchpoint 3: i 

Old value = 3 

New value = 4 

0x0804838d in main () at gdb example.c:23 
23 for (i = 0; i < 10; i++) 


6.print 命 令 


在 调试 程序 时 ， 当 程序 被 停 住 时 ， 可 以 使 用 print 命 令 (缩写 为 p) ， 或 是 同 义 命令 inspect 来 查看 当前 程序 的 运行 数据 。print 命 令 的 格式 如 下 : 


print <expr> 
print /<f> <expr> 


<expr> 是 表达 式 ， 也 是 被 调试 的 程序 中 的 表达 式 ，<f> 是 输出 的 格式 ， 比 如 ， 如 果 要 把 表达 式 按 十 六 进 制 的 格式 输出 ， 那 么 就 是 /x。 在 表达 式 中 ， 有 几 种 GDB 所 支持 的 操作 符 ， 它 们 可 以 用 在 任何 一 种 
语言 中 ，@ 是 一 个 和 数组 有 关 的 操作 符 ，: : 指定 一 个 在 文件 或 是 函数 中 的 变量 ，{<type>}j<addr> 表 示 一 个 指向 内 存 地址 <addr> 的 类 型 为 type 的 对 象 。 


下 面 演示 了 查看 sum[] 数 组 的 值 的 过 程 : 


(gdb) print sum 
$2 = {133, 155, 0, 0, 0, 0, 0, 0, 0, O} 


(gdb) next 

Breakpoint 1, main () at gdb example.c:25 

25 sum[i] = add (arrayl [i], array2[i]); 
(gdb) next 

23 for (i = 0; i < 10; i++) 


(gdb) print sum 
$3 = {133, 155, 143, 0, 0, 0, 0, 0, 0, O} 


当 需 要 查看 一 段 连 续 内 存 空间 的 值 时 ， 可 以 使 用 GDB 的 @ 操 作 符 ，@ 的 左边 是 第 一 个 内 存 地 址 ，@ 的 右边 则 是 想 查 看 内 存 的 长 度 。 例 如 如 下 动态 申请 的 内 存 : 


int *array = (int *) malloc (len * sizeof (int)); 


在 GDB 调 试 过程 中 这 样 显 示 这 个 动态 数组 的 值 : 


p *array@len 


print 的 输出 格式 如 下 。 
(x: 按 十 六 进 制 格式 显示 变量 。 
od: 按 十 进 制 格式 显示 变量 。 


“ u; 按 十 六 进 制 格 式 显示 无 符号 整 型 。 


“ f: 按 浮 点 数 格式 显示 变量 。 


我 们 可 用 display 命 令 设置 一 些 自动 显示 的 变量 ， 当 程序 停 住 时 ， 或 是 单 步 跟踪 时 ， 这 些 变量 会 自动 显示 。 


如 果 要 修改 变量 ， 如 x 的 值 ， 可 使 F 


oe 


0 下 命令 : 


print x=4 


当 用 GDB 的 print 查 看 程序 运行 时 数据 时 ， 每 一 个 print 都 会 被 GDB 记 录 下 来 。GDB 会 以 $1，$2，$3... 这 样 的 方式 为 每 一 个 print 命 令 编号 。 我 们 可 以 使 用 这 个 编号 访问 以 前 的 表达 式 ， 如 $1。 


7.watch 命 令 


watch 一 般 用 来 观察 某 个 表达 式 (变量 也 是 一 种 表达 式 ) 的 值 是 否 有 了 变化 ， 如 果 有 变化 ， 马 上 停止 程序 运行 。 我 们 有 如 下 几 种 方法 来 设置 观察 点 。 
watch<expr>: 为 表达 式 (变量 ) expr 设 置 一 个 观察 点 。 一 旦 表达 式 值 有 变化 时 ， 马 上 停止 程序 运行 。 


rwatch<expr> : 当 表 达 式 (变量 ) expr 被 读 时 ， 停 止 程序 运行 。 
awatch<expr> : 当 表达 式 (变量 ) 的 值 被 读 或 被 写 时 ， 停 止 程序 运行 。 
info watchpoints: 列 出 当前 所 设置 的 所 有 观察 点 。 


下 面 演示 了 观察 并 在 连续 运行 hext 时 一 旦 发 现 变 化 ，i 值 就 会 显示 出 来 的 过 程 : 


(gdb) watch i 


Hardware watchpoint 3: i 

(gdb) next 

23 for (i = 0; i < 10; itt) 
(gdb) next 


Hardware watchpoint 3: i 

Old value = 0 

New value = 1 

0x0804838d in main () at gdb example.c:23 


23 for (i = 0; i < 10; i++) 

(gdb) next 

Breakpoint 1, main () at gdb_example.c:25 

25 sum[i] = add(arrayl[i], array2[i]); 
(gdb) next 

23 for (i = 0; i < 10; i++) 

(gdb) next 


Hardware watchpoint 3: i 

Old value = 1 

New value = 2 

0x0804838d in main () at gdb example.c:23 
23 for (i = 0; i < 10; i+) 


8.examine 命 令 


我 们 可 以 使 用 examine 命 令 (缩写 为 x) 来 查看 内 存 地 址 中 的 值 。examine 命 令 的 语法 如 下 所 示 : 


x/<n/f£/u> <addr> 


<addr> 表 示 一 个 内 存 地 址 。“x/” 后 的 n、f、Uu 都 是 可 选 的 参数 ，n 是 一 个 正 整 数 ， 表 示 显 示 内 存 的 长 度 ， 也 就 是 说 从 当前 地 址 向 后 显示 几 个 地 址 的 内 容 ; 人 未 示 显 示 的 格式 ， 如 果 地 址 所 指 的 是 字符 
串 ， 那 么 格式 可 以 是 s， 如 果 地 址 是 指令 地 址 ， 那 么 格式 可 以 是 i; u 表 示 从 当前 地 址 往 后 请 求 的 字 节 数 ， 如 果 不 指定 的 话 ，GDB 默 认 的 是 4 字 节 。Uu 人 参数 可 以 被 一 些 字 符 代替: b 表 示 单 字 节 ，h 表 示 双 字 
节 ，w 表 示 四 字 节 ，9 表 示 八 字 节 。 当 我 们 指定 了 字 节 长 度 后 ，GDB 会 从 指定 的 内 存 地 址 开始 ， 读 写 指定 字 节 ， 并 把 其 当 作 一 个 值 取出 来 。n、f、Uu 这 3 个 参数 可 以 一 起 使 用 ， 例 如 命令 X/3uh 0x54320 表 示 
从 内 存 地 址 0x54320 开 始 以 双 字 节 为 1 个 单位 (h) 、16 进 制 方式 (U) 显示 3 个 单位 (3) 的 内 存 。 


9.set 命 令 


examine 命 令 用 于 查看 内 存 ， 而 set 命 令 用 于 修改 内 存 。 它 的 命令 格式 是 “set* 有 类 型 的 指针 =value”。 


比如 ， 下 列 程序 ， 在 用 gdb 运 行 起 来 后 ， 通 过 Ctrl+C 停 住 。 


main() 

{ 
void *p = malloc(16); 
while(1); 


我 们 可 以 在 运行 中 用 如 下 命令 来 修改 p 指 向 的 内 存 。 


(gdb) * (unsigned char *)p='h' 
(gdb) * (unsigned char *) (p+1)='e' 
(gdb) set *(unsigned char *) (p+2) 

(gdb) * (unsigned char *) (p+3)='1' 
(gdb) * (unsigned char *) (p+4)='o' 


(gdb) x/s p 
0x804b008: "hello" 


也 可 以 直接 使 用 地 址 常数 : 


(gdb) P P 
$2 = (void *) 0x804b008 
(gdb) set *(unsigned char *)0x804b008='w' 
(gdb) set * (unsigned char *) 0x804b009='0' 
(gdb) set * (unsigned char *)0x804b00a='r' 
(gdb) set * (unsigned char *)0x804b00b='1' 
(gdb) set *(unsigned char *)0x804b00c='d' 
(gdb) x/s 0x804b008 
0x804b008: "world" 

10.jump 命 令 


一 般 来 说 ， 被 调试 程序 会 按照 程序 代码 的 运行 顺序 依次 执行 ， 但 是 GDB 也 提供 了 乱 序 执行 的 功能 ， 也 就 是 说 ，GDB 可 以 修改 程序 的 执行 顺序 ， 从 而 让 程序 随意 跳跃 。 这 个 功能 可 以 由 GDB 的 jump 命 令 
jump<linespec> 来 指定 下 一 条 语句 的 运行 点 。<linespec> 可 以 是 文件 的 行 号 ， 可 以 是 file: line 格 式 ， 也 可 以 是 +num 这 种 偏 移 量 格式 ， 表 示 下 一 条 运行 语句 从 哪里 开始 。 


jump <address> 


这 里 的 <address> 是 代码 行 的 内 存 地 址 。 


注意 : jup ARAARA WARES HAS, to RAR jump A— AH AHL S| HAGA, YAS) A BAUR RL, WAT HRN LAARAMIR, RTRAERERRA ER, AR 
只 用 jump 在 同一 个 函数 中 进行 跳 转 。 


11.signal 命 令 


使 用 singal 命 令 ， 可 以 产生 一 个 信号 量 给 被 调试 的 程序 ， 如 中 断 信和 号 Ctrl+C。 于 是 ， 可 以 在 程序 运行 的 任意 位 置 处 设置 断 点 ， 并 在 该 断 点 处 用 GDB 产 生 一 个 信号 量 ， 这 种 精确 地 在 某 处 产生 信号 的 方法 
非常 有 利于 程序 的 调试 。 


signal 命 令 的 语法 是 signal<signal> ，UNIX 的 系统 信号 量 通常 为 1~15， 因 此 <signal> 的 取 值 也 在 这 个 范围 内 。 


12.return 命 令 


如 果 在 函数 中 设置 了 调试 断 点 ， 在 断 点 后 还 有 语句 没有 执行 完 ， 这 时 候 我 们 可 以 使 用 return 命 令 强 制 函数 忽略 还 没有 执行 的 语句 并 返回 。 


return 
return <expression> 


上 述 return 命 令 用 于 取消 当前 函数 的 执行 ， 并 立即 返回 ， 如 果 指 定 了 <expression> ， 那 么 该 表达 式 的 值 会 被 作为 函数 的 返回 值 。 


13.call 命 令 


call 命 令 用 于 强制 调用 某 函 数 : 


call <expr> 


表达 式 可 以 是 函数 ， 以 此 达到 强制 调用 函数 的 目的 ， 它 会 显示 函数 的 返回 值 (如 果 函 数 返回 值 不 是 void) 。 比 如 在 下 列 程序 执行 while (1) 的 时 候 : 


main () 

{ 
void *p = malloc (16); 
while (1); 

} 


我 们 强制 要 求 其 执行 strcpy () 和 printf () : 


(gdb) call strcpy(p, "hello world") 
$3 = 134524936 

(gdb) call printf ("%s\n", p) 

hello world 

$4 = 12 


14.info 命 令 


info 命 令 可 以 用 来 在 调试 时 查看 寄存 器 、 断 点 、 观 察 点 和 信号 等 信息 。 要 查看 寄存 器 的 值 ， 可 以 使 用 如 下 命令 : 


info registers (查看 除了 浮上 点 寄存 器 以 外 的 寄存 器 ) 
info all-registers (查看 所 有 和 寄存器， 包括 浮 点 寄存 器 ) 
info registers <regname http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/...> (查看 所 指定 的 寄存 器 ) 


查看 断 点 信息 ， 可 以 使 用 如 下 命令 : 


info break 要 列 出 当前 所 设置 的 所 有 观察 点 ， 可 使 用 如 下 命令 : 


info watchpoints 


要 查看 有 哪些 信号 正在 被 GDB 检 测 ， 可 使 用 如 下 命令 : 


info signals 
info handle 


也 可 以 使 用 info line 命 令 来 查看 源 代码 在 内 存 中 的 地 址 。info line 后 面 可 以 跟 行 号 、 函 数 名 、 文 件 名 : 行 号 、 文 件 名 : 函数 名 等 多 种 形式 ， 例 如 用 下 面 的 命令 会 打印 出 所 指定 的 源码 在 运行 时 的 内 存 地 址 : 


info line tst.c:func 


15.disassemble 


disassemble 命 令 用 于 反 汇 编 ， 可 用 它 来 查看 当前 执行 时 的 源 代 码 的 机 器 码 ， 实 际 上 只 是 把 目前 内 存 中 的 指令 冲刷 出 来 。 下 面 的 示例 用 于 查看 函数 func 的 汇编 代码 : 


(gdb) disassemble func 
Dump of assembler code for function func: 


0x8048450 <func>: push %ebp 
0x8048451 <functl>: mov zesp, sebp 
0x8048453 <func+3>: sub $0x18, %esp 


0x8048456 <func+6>: movl $0x0, Oxfffffffc (Sebp) 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


End of assembler dump. 


21.2 Linux 内 核 调 试 


在 嵌入 式 系统 中 ， 由 于 目标 机 资源 有 限 ， 因 此 往往 在 主机 上 先 编译 好 程序 ， 再 在 目标 机 上 运行 。 用 户 所 有 的 开发 工作 都 在 主机 开发 环境 下 完成 ， 包 括 编码 、 编 译 、 连 接 、 下 载 和 调试 等 。 目 标 机 和 主机 
通过 串口 、 以 太 网 、 仿 真 器 或 其 他 通信 手段 通信 ， 主 机 用 这 些 接口 控制 目标 机 ， 调 试 目标 机 上 的 程序 。 


调试 嵌入 式 Linux 内 核 的 方法 如 下 。 


1) 目标 机 “ 揪 桩 ”， 如 打上 KGDB 补 丁 ， 这 样 主机 上 的 GDB 可 与 目标 机 的 KGDB 通 过 串口 或 网 口 通信 。 


2) 使 用 仿真 器 ,仿真 器 可 直接 连接 目标 机 的 JTAG/BDM， 这样 主机 的 GDB 就 可 以 通过 与 仿真 器 的 通信 来 控制 目标 机 。 


3) 在 目标 板 上 通过 printk () 、Oops、strace 等 软件 方法 进行 “观察 ”调试 ， 这 些 方法 不 具备 查看 和 修改 数据 结构 、 断 点 、 单 步 等 功能 。 


21.4~21.7 节 将 对 这 些 调试 方法 进行 一 一 讲解 。 


不 管 是 目标 机 “ 播 桩 ”还 是 使 用 仿真 器 连接 目标 机 JTAG/SWD/BDM ， 在 主机 上 ， 调 试 工具 一 般 都 采用 GDB。 


GDB 可 以 直接 把 Linux 内 核 当成 一 个 整体 来 调试 ， 这 个 过 程 实际 上 可 以 被 QEMU 模 拟 出 来 。 进 入 本 书 配套 Ubuntu 的 /home/baohua/developylinux/extra 目 录 下 ， 修 改 run-nolcd.sh 的 脚本 ， 将 其 从 


gemu-system-arm -nographic -sd vexpress.img -M vexpress-a9 -m 512M -kernel 
zImage -dtb vexpress-v2p-ca9.dtb -smp 4 -append "init=/linuxrc root=/dev/ 
mmcblk0p1 rw rootwait e arlyprintk console=ttyAMAO" 2>/dev/null 


WA: 


gemu-system-arm -s -S -nographic -sd vexpress.img -M vexpress-a9 -m 512M -kernel 
zImage -dtb vexpress-v2p-ca9.dtb -smp 4 -append "init=/linuxrc root=/dev/ 
mmcblk0p1 rw rootwait e arlyprintk console=ttyAMA0" 2>/dev/null 


即 添加 -s-S 选 项 ， 则 会 使 嵌入 式 ARM Linux 系 统 等 待 GDB 远 程 连 入 。 在 终端 1 运行 新 的 ./run-nolcd.sh， 这 样 嵌 入 式 ARM Linux 的 模拟 平台 在 1234 端 口 侦 听 。 开 一 个 新 的 终端 2， 进 
入 /home/baohua/develop/linux/， 执 行 如 下 代码 : 


baohua@baohua-VirtualBox:~/develop/linux$ arm-linux-gnueabihf-gdb ./vmlinux 

GNU gdb (crosstool-NG linaro-1.13.1-4.8-2013.05 - Linaro GCC 2013.05) 7.6-2013.05 

Copyright (C) 2013 Free Software Foundation, Inc. 

License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html> 

This is free software: you are free to change and redistribute it. 

There is NO WARRANTY, to the extent permitted by law. Type "show copying" 

and "show warranty" for details. 

This GDB was configured as "--host=i686-build_pc-linux-gnu --target=arm-linux-gnueabihf". 

For bug reporting instructions, please see: 

<https://bugs.launchpad.net/gcc-linaro>http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
Reading symbols from /home/baohua/develop/1inux/vmlinuxhttp: //www.hzcourse .com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/...done. 
(gdb) 


接 下 来 我 们 远程 连接 127.0.0.1: 1234 


(gdb) target remote 127.0.0.1:1234 
Remote debugging using 127.0.0.1:1234 
0x60000000 in ?? () 


设置 一 个 断 点 到 start_kernel () 。 


(gdb) b start_kernel 
Breakpoint 1 at 0x805fd8ac: file init/main.c, line 490. 


继续 运行 : 


(gdb) c 

Continuing. 

Breakpoint 1, start_kernel () at init/main.c:490 
490 { = 

(gdb) 


[ 


断 点 停 在 了 内 核 启 动 过 程 中 的 start_kernel () 函数 ， 这 个 时 候 我 们 按 下 Ctrl+X，A 键 ， 可 以 看 到 代码 ， 如 图 21.4 所 示 。 


进一步 ， 可 以 看 看 jiffies 值 之 类 的 : 


(gdb) P jiffies 

$1 = 775612 

(gdb) c 

Continuing. 

ac 

Program received signal SIGINT, Interrupt. 
cpu v7_do idle () at arch/arm/mm/proc-v7.S:74 
74 


ret lr 
(gdb) p jiffies 
$2 = 775687 


(gdb) 


page ext_init_flatmem(); 
mem_init(); 
kmem_cache_init(); 
percpu_init_late(); 
pgtable_init(); 
vmalloc_init(); 


} 


asmlinkage _ visible void _ init start_kernel(void) 


char *command_line; 
char *after_dashes; 


/* 
* Need to run as early as possible, to initialize the 
* Lockdep hash: 
.4 
lockdep_init(); 
set_task_stack_end_magic(&init_task); 
smp_setup_processor_id(); 
debug objects earl 


start_kernel 


图 21.4 GDB 调 试 内 核 


尽管 采用 “ 揪 桩 ”和 仿真 器 结合 GDB 的 方式 可 以 查看 和 修改 数据 结构 、 断 点 、 单 步 等 ， 而 printk () 这 种 最 原始 的 方法 却 应 用 得 更 广泛 。 


printk () 这 种 方法 很 原始 ， 但 是 一 般 可 以 解决 工程 中 95% 以 上 的 问题 。 因 此 具体 何 时 打印 ， 以 及 打印 什么 东西 ， 需 要 工程 师 逐 步 建立 敏锐 的 嗅觉 。 加 深 对 内 核 的 认 知 ， 深 入 理解 自己 正在 调试 的 模 
这 才 是 快速 解决 问题 的 “王道 ”。 工 具 只 是 一 个 辅助 手段 ， 无 法 代 蔡 工程 师 的 思维 。 


块 


工程 师 不 能 抱 着 得 过 且 过 的 心态 ， 也 不 能 总 是 一 知 半 解 地 进行 低 水 平 的 重复 建设 。 求 知 欲 望 对 工程 师 技 术 水 平 的 提升 有 着 最 关键 的 作用 。 


21.3 ”内 核 打 印信 息 一 一 printk () 


在 Linux 中 ， 内 核 打印 语句 printk () 会 将 内 核 信息 输 出 到 内 核 信息 缓冲 区 中 ， 内 核 缓冲 区 是 在 kernel/printk.c 中 通过 如 下 语句 静态 定义 的 : 


static char _ log buf[_ LOG BUF LEN] _aligned(LOG ALIGN); 


内 核 信息 缓冲 区 是 一 个 环形 缓冲 区 (Ring Buffer) ， 因 此 ， 如 果 塞 入 的 消息 过 多 ， 则 就 会 将 之 前 的 消息 冲刷 掉 。 


printk () 定义 了 8 个 消息 级 别 ， 分 为 级 别 0~7， 级 别 越 低 (数值 越 大 ) ， 消 息 越 不 重要 ， 第 0 级 是 紧急 事件 级 ， 第 7 级 是 调试 级 ， 代 码 清单 21.2 所 示 为 printk () 的 级 别 定义 。 


代码 清单 21.2 printk () 的 级 别 定义 


1 #define KERN EMERG "<0>" /* 紧急 Fi 一 般 是 系统 崩溃 之 前 提示 的 消息 */ 

2 #define KERN ALERT "<1>" * */ 

3 #define KERN CRIT "<2>" 上 及 严 pees 或 软件 操作 失败 */ 
4 #define KERN ERR "<3>" 设备 驱动 程序 会 

5 

6 #define KERN WARNING "<4>" 

5 

8 #define KERN NOTICE "<5>" 

9 


i Soe ki 


oh 
i 


10#define KERN INFO "<6>" 
1 


a 
12#define KERN_DEBUG nean 用 于 调试 信息 


通过 /proc/sys/kernel/printk 文 件 可 以 调节 printk () 的 输出 等 级 ， 该 文件 有 4 个 数字 值 ， 如 下 所 示 。 

“ 控制 台 (一般 是 串口 ) 日 志 级 别 : 当前 的 打印 级 别 ， 优 先 级 高 于 该 值 的 消息 将 被 打印 至 控制 台 。 

: 默认 的 消息 日 志 级 别 : 将 用 该 优先 级 来 打印 没有 优先 级 前 缓 的 消息 ， 也 就 是 在 直接 写 printk (“xxx”) 而 不 带 打 印 级 别 的 情况 下 ， 会 使 用 该 打印 级 别 。 
“ 最 低 的 控制 台 日 志 级 别 : 控制 台 日 志 级 别 可 被 设置 的 最 小 值 (一 般 都 是 1) 。 

: 默认 的 控制 台 日 志 级 别 : 控制 台 日 志 级 别 的 默认 值 。 

如 在 Ubuntu PC 上 ，/proc/sys/kernel/printk 的 值 一 般 如 下 : 


$ cat /proc/sys/kernel/printk 
4 4 1 F 


而 我 们 通过 如 下 命令 可 以 使 得 Linux 内 核 的 任何 printk () 都 从 控制 台 输出 : 


# echo 8 > /proc/sys/kernel/printk 


在 默认 情况 下 ，DEBUG 级 别 的 消息 不 会 从 控制 台 输出 ， 我 们 可 以 通过 在 bootargs 中 设置 jgnore loglevel 来 忽略 打印 级 别 ， 以 保证 所 有 消息 都 被 打印 到 控制 台 。 在 系统 启动 后 ， 用 户 还 可 以 通过 
写 /sys/module/printk/parameters/ignore_loglevel 文 件 动 态 来 设置 是 否 忽略 打印 级 别 。 


要 注意 的 是 ，/proc/sys/kernel/printk 并 不 控制 内 核 消息 进入 _log_buf 的 门槛 ， 因 此 无 论 消息 级 别 是 多 少 ， 都 会 进入 _log_buf 中 ， 但 是 最 终 只 有 高 于 当前 打印 级 别 的 内 核 消息 才 会 从 控制 台 打 印 。 


可 以 通过 dmesg 命 令 查看 内 核 打 印 缓冲 区 ， 而 如 果 使 用 dmesg-c 命 令 ， 则 不 仅 会 显示 _log_buf， 还 会 清除 该 缓冲 区 的 内 容 。 也 可 以 使 用 cat/proc/kmsg 命 令 来 显示 内 核 信息 。/proc/kmsg 是 一 
个 “ 永 无 休止 的 文件 ”， 因 此 ，cat/proc/kmsg 的 进程 只 能 通过 “Ctrl+C” 或 kill 终 止 。 


在 设备 驱动 中 ， 经 常 需要 输出 调试 或 系统 信息 ， 尽 管 可 以 直接 采用 printk (“<7>debug info..\n" ) 方式 的 printk () 语句 输出 ， 但 是 通常 可 以 使 用 封装 了 printk () 的 更 高 级 的 宏 ， 如 
pr debug () . dev debug () 等 。 代 码 清单 21.3 所 示 为 pr debug () 和 pr_info () 的 定义 。 


代码 清单 21.3 ”可 蔡 代 printk () 的 宏 pr debug () 和 pr_info () 的 定义 


1#ifdef DEBUG 


2#define pr debug (fmt, arghttp: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/...) \ 
3 printk (KERN_DEBUG fmt, #targ) E 
4#else 
Sstatic inline int _ attribute _ ((format (printf, 1, 2))) pr_debug(const char * fmt, http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/ 
6{ 
? return 0; 
8} 
9#endif 
10 
11#define pr info (fmt,arghttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/0EBPS/Text/...) \ 


12 printk (KERN INFO fmt,##arg) 


使 用 pr_ xxx () 族 API 的 好 处 是 ， 可 以 在 文件 最 开头 通过 pr fmt () 定义 一 个 打印 格式 ， 比 如 在 kernel/watchdog.c 的 最 开头 通过 如 下 定义 可 以 保证 之 后 watchdog.c 调 用 的 所 有 pr_xxx() 打印 的 消息 
都 自动 带 有 “NMI watchdog: ”的 前 缀 。 


#define pr fmt (fmt) "NMI watchdog: " fmt 
#include <Iinux/mm.h> 

#include <linux/cpu.h> 

#include <linux/nmi .h>--- 


代码 清单 21.4 所 示 为 dev_ dbg () 、dev err () . dev_info () 等 的 定义 ， 使 用 dev_xxx () 族 API 打 印 的 时 候 ， 设 备 名 称 会 被 自动 加 到 打印 消息 的 前 头 。 


代码 清单 21.4 包含 设备 信息 的 可 蔡 代 printk () 的 宏 


l#define dev_printk(level, dev, format, arghttp://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/...) \ 
2 printk(level "%s %s: " format , dev_driver_string(dev) , (dev)->bus_id , ## arg) 


4#ifdef DEBUG 

5#define dev_dbg(dev, format, arghttp://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/...) y 

6 dev_printk (KERN_DEBUG , dev , format , ## arg) ~ 

7#else 

8#define dev_dbg (dev, format, arghttp://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/...) do { (void) (dev); } while (0) 
9#endif 

10 

1l#define dev err (dev, format, arghttp://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/...) 

12 dev_printk(KERN_ERR , dev , format , ## arg) ~ 

13#define dev_info(dev, format, arghttp://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/...) 
14 dev_printk(KERN_INFO , dev , format , ## arg) 

15#define dev_warn(dev, format, arghttp://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/...) 
16 Gev printk (KERN WARNING , dev , format , ## arg) 

17#define dev_notice(dev, format, arghttp://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/...) 
18 dev_printk(KERN_NOTICE , dev , format , ## arg) 


Pg 


在 打印 信息 时 ， 如 果 想 输出 printk () 调用 所 在 的 函数 名 ， 可 以 使 用 _func_; 如 果 想 输出 其 所 在 代码 的 行 号， 可 以 使 用 _LINE_; 想 输 出 源 代码 文件 名 ， 可 以 使 用 _FILE_。 例 如 drivers/block/sx8.c 
中 的 : 


#ifdef CARM_NDEBUG 
#define assert (expr) 


#else 

#define assert (expr) \ 
if(unlikely(! (expr))) { \ 
printk (KERN ERR "Assertion failed! %s,%s,%s,line=%d\n", \ 
#expr, FILE , Tanec + LINE ); \ 
} 

#endif 


21.4 DEBUG _LL 和 EARLY_PRINTK 


DEBUG LL 对 应 内 核 的 Kernel low-level debugging 功 能 ，EARLY_PRINTK 则 对 应 内 核 中 一 个 早期 的 控制 台 。 为 了 在 内 核 的 drivers/tty/serial 下 的 控制 台 驱 动 初始 化 之 前 支持 打印 ， 可 以 选择 DEBUG_LL 
和 EARLY_PRINTK 这 两 个 配置 选项 。 另 外 ， 也 需要 在 bootargs 中 设置 earlyprintk 的 选项 。 


对 于 LDDD3 vexpress 而 言 ， 没 有 DEBUG_LL 和 EARLY_PRINTK 的 时 候 ， 我 们 看 到 的 内 核 最 早 的 打印 是 : 


Booting Linux on physical CPU 0x0 
Initializing cgroup subsys cpuset 
Linux version … 


[ 


如 果 我 们 使 能 DEBUG_LL 和 EARLY_PRINTK， 选 择 如 
早 的 打印 信息 : 


21.5 所 示 的 “Use PLO11UARTOat 0x10009000 (V2P-CA9core tile) ”这 个 低级 别 调试 口 ， 并 在 bootargs 中 设置 earlyprintk， 则 我 们 看 到 了 更 


Uncompressing Linuxhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/0EBPS/Text/... done, booting the kernel. 


Kernel hacking 
Arrow keys navigate the menu. <Enter> selects submenus ---> (or empty submenus ----). 
Highlighted letters are hotkeys. Pressing <Y> includes, <N> excludes, <M> modularizes features. 
Press <Esc><Esc> to exit, <?> for Help, </> for Search. Legend: [*] built-in [ ] excluded 
<M> module < > module capable 


udelay test driver 

Sample kernel code ---- 

KGDB: kernel debugger ---- 

Export kernel pagetable layout to userspace via debugfs 

Filter access to /dev/mem 

] Enable stack unwinding support (EXPERIMENTAL) 
Verbose user fault messages 
Kernel low-level debugging functions (read help!) 
Kernel low-level debugging port (Use PLO11 UARTO at 0x10009000 (V2P-CA9 core 

(0x10009000) Physical base address of debug UART 


人 Virtual base address of debug UART 
* p 


[ ] Write the current PID to the CONTEXTIDR register 
F ] Set loadable kernel module data as NX and text as RO 
(+) 


< Exit > < Help> <Save> < Load > 


图 21.5 ”选择 低级 别 调试 UART 


21.5 使 用 “/proc” 


在 Linux 系 统 中 ，“/proc” 文 件 系统 十 分 有 用 ， 它 被 内 核 用 于 向 用 户 导 出 信息 。 “/proc” 文 件 系统 是 一 个 虚拟 文件 系统 ， 通 过 它 可 以 在 Linux 内 核 空间 和 用 户 空 间 之 间 进 行 通信 。 在 /proc 文 件 系 统 
中 ， 我 们 可 以 将 对 虚拟 文件 的 读 写作 为 与 内 核 中 实体 进行 通信 的 一 种 手段 ， 与 普通 文件 不 同 的 是 ， 这 些 虚 拟 文件 的 内 容 都 是 动态 创建 的 。 


“proc” 下 的 绝 大 多 数 文件 是 只 读 的 ， 以 显示 内 核 信息 为 主 。 但 是 “/proc” 下 的 文件 也 并 不 是 完全 只 读 的 ， 若 节点 可 写 ， 还 可 用 于 一 定 的 控制 或 配置 目的 ， 例 如 前 面 介 绍 的 
写 /proc/sys/kernel/printk 可 以 改变 printk () 的 打印 级 别 。 


Linux 系 统 的 许多 命令 本 身 都 是 通过 分 析 “/proc” 下 的 文件 来 完成 的 ， 如 ps、top、uptime 和 free 等 。 例 如 ，free 命 令 通过 分 析 /proc/meminfo 文 件 得 到 可 用 内 存 信息 ， 下 面 显 示 了 对 应 的 meminfo 文 
件 和 free 命 令 的 结果 。 


1.meminfo 文 件 


[root@localhost proc]# cat meminfo 
9516 


MemTotal: kB 
MemF ree: 1472 kB 
Buffers: 4096 kB 
Cached: 12648 kB 
SwapCached: 0 kB 
Active: 14208 kB 
Inactive: 8844 kB 
HighTotal: 0 kB 
HighFree: 0 kB 
LowTotal: 29516 kB 
LowFree: 1472 kB 
SwapTotal: 265064 kB 
SwapFree: 265064 kB 
Dirty: 20 kB 
Writeback: 0 kB 
Mapped: 10052 kB 
Slab: 3864 kB 
CommitLimit: 279820 kB 
Committed_AS: 13760 kB 
PageTables: 444 kB 
VmallocTotal: 999416 kB 
VmallocUsed: 560 kB 


VmallocChunk: 998580 kB 


2. free 命 令 


[root@localhost proc]# free 


total used free shared buffers cached 
Mem: 29516 28104 1412 0 4100 12700 
-/+ buffers/cache: 11304 18212 
Swap: 265064 0 265064 


在 Linux 3.9 以 及 之 前 的 内 核 版 本 中 ， 可 用 如 下 函数 创建 “/proc” 节 点 : 


struct proc_dir entry *create_proc_entry(const char *name, mode_t mode, 
struct proc_dir entry *parent) ; 

struct proc_dir entry *create_proc_read_entry(const char *name, mode_t mode, 
struct proc_dir entry *base, read_proc_t *read_proc, void * data); 


create_proc_entry () 函数 用 于 创建 “/proc” 节点， 而 create_proc read_entry () 调用 create_proc entry () 创建 只 读 的 “/proc” 节 点 。 参 数 nhame 为 “/proc” 节 点 的 名 称 ，parent/base 为 父 
目录 的 节点 ， 如 果 为 NULL， 则 指 “/proc” 目 录 ，read_proc 是 “/proc” 节 点 的 读 函 数 指针 。 当 read () 系统 调用 在 “/proc” 文 件 系统 中 执行 时 ， 它 映像 到 一 个 数据 产生 函数 ， 而 不 是 一 个 数据 获取 函 


下 列 函 数 


于 创建 “/proc” 目录: 


struct proc_dir entry *proc_mkdir(const char *name, struct proc dir entry *parent); 


结合 create_proc entry () 和 proc_ mkdir () ， 代 码 清单 21.5 中 的 程序 可 上 


代码 清单 21.5 proc mkdir () 和 create_proc entry() 函数 使 用 范例 


于 先 在 /proc 下 创建 一 个 目录 procfs example， 而 后 在 该 目录 下 创建 一 个 文件 example file, 


1/* 创建 /proc 下 的 目录 */ 
2example_dir = proc_mkdir("procfs_example", NULL); 
3if (example dir == NULL) { 


4 rv = -ENOMEM; 
5 goto out; 

6} 

7 


8example_dir->owner = 
9 

10/* 创建 一 个 /Proc 文 件 */ 

1lexample_file = create proc entry("example file", 0666, example dir); 


12if (example file == NULL) { 


THIS MODULE; 


13 rv = -ENOMEM; 
14 goto out; 

15} 

16 


17example file->owner = THIS MODULE; 
18example_file->read_proc = example file read; 
19example_file->write_proc = example file write; 


作为 上 述 函 数 返回 值 的 proc dir_entry 结 构 体 包 含 了 “/proc” 节 点 的 读 函 数 指针 (read_proc_t*read_proc) 、 写 函数 指针 (write_proc_t*write_ proc) 以 及 父 节点 、 子 节点 信息 等 。 


/proc 节 点 的 读 写 函 数 的 类 型 分 别 为 : 


typedef int (read_proc_t) (char *page, char **start, off_t off, 
int count, int *eof, void *data); 
typedef int (write proc t) (struct file *file, const char user *buffer, 


unsigned long count, void *data); 


读 函 数 中 page 指 针 指 向 


于 写 入 数据 的 缓冲 区 ，start 用 了 


返回 实际 的 数据 并 写 到 内 存 页 的 位 置 ，eof 是 用 了 


回 


写 函 数 与 file_operations 中 的 write () 成 员 函 数 类 似 ， 需 要 一 次 从 用 户 缓冲 区 到 内 存 空间 的 复制 过 程 。 


在 Linux 系 统 中 可 上 


如 下 函数 删除 /proc 节 点 : 


返回 读 结束 相 
于 /proc 只 包含 简单 数据 的 情况 ， 通 常 不 需要 在 读 函 数 中 设置 *start， 这 意味 着 内 核 将 认为 数据 保存 在 内 存 页 偏 移 0 的 地 方 。 


= 
Ri , 


offset 是 读 的 偏 移 ，count 是 要 读 的 数据 长 度 。start 参 数 比较 复杂 ， 对 


void remove_proc_entry(const char *name, struct proc_dir entry *parent); 


在 Linux 系 统 中 已 经 定义 好 的 可 使 有 


是 NULL。 


代码 清单 21.6 所 示 为 一 个 简单 的 “/proc” 文 件 系统 使 


范例 ， 这 段 代 码 在 模块 加 载 函 数 中 创建 /proc/test_dir 


销 “/proc” 节 点 ,而 /proc/test_dir/test_rw 文 件 中 只 保存 了 一 个 32 位 的 整数 。 


代码 清单 21.6 /proc 文 件 系统 使 用 范例 


的 /proc 节 点 宏 包 括 : proc root fs (/proc) 、proc net (/proc/net) 、proc bus (/proc/bus) 、proc root driver (/proc/driver) 等 ，proc_root fs 实际 上 就 


录 ， 并 在 该 


录 中 创建 /proc/test_dir/test_rw 文 件 节点 ， 在 模块 卸载 函数 中 撤 


1#include 
2#include 
3#include 
4#include 
5 

6static unsigned int variable; 

7static struct proc_dir_entry *test_dir, *test_entry; 

8 

9static int test_proc_read(char *buf, char **start, off t off, int count, 
10 int *eof, void *data) 

11{ 

12 unsigned int *ptr var = data; 

13 return sprintf (buf, "Su\n", *ptr_var); 

14} 

15 

16static int test_proc_write(struct file *file, const char *buffer, 

17 unsigned long count, void *data) 

18{ 

19 unsigned int *ptr_var = 
20 = 
21 *ptr_var = 
22 T 

23 return count; 

24} 

25 

26static _ init int test proc init (void) 
27{ 

28 test dir = proc mkdir("test dir", NULL); 
29 if (test dir) {— F 


<linux/module.h> 
<linux/kernel.h> 
<linux/init.h> 
<linux/proc_fs.h> 


data; 


simple_strtoul (buffer, NULL, 10); 


30 test_entry = create_proc_entry("test_rw", 0666, test_dir); 
31 if (test_entry) { 

32 test_entry->nlink = 1; 

33 test_entry->data = &variable; 

34 test_entry->read_proc = test_proc_read; 
35 test_entry->write_proc = test_proc_write; 
36 return 0; 

37 } 

38 } 

39 

40 return -ENOMEM; 

41} 

42module_init (test_proc_init); 

43 

44static _ exit void test_proc_cleanup (void) 

45{ 


46 remove_proc_entry("test_rw", test_dir); 

47 vemove_proc_entry("test_dir", NULL); 

48} 

49module_exit (test_proc_cleanup) ; 

50 

51MODULE AUTHOR ("Barry Song <baohua@kernel.org>") ; 
52MODULE DESCRIPTION ("proc exmaple") ; 
53MODULE_LICENSE ("GPL v2") ; 


上 述 代码 第 21 行 调 


的 simple strtoul () 


于 将 


输入 的 字符 串 转换 为 无 符号 长 整数 ， 


第 3 个 参数 10 意 味 着 转化 方式 是 十 进 制 。 


编译 上 述 简单 的 proc.c 为 proc.ko， 运 行 insmod proc.ko 加 载 该 模块 后 ，“/proc” 目录 下 将 多 出 一 个 目录 test_dir， 该 目录 下 包含 一 个 test_rw，ls-| 的 结果 如 下 : 


$ 1s -1 /proc/test_dir/test_rw 
-rw-rw-rw- 1 root root 0 Aug 16 20:45 /proc/test_dir/test_rw 


测试 /proc/test_dir/test_rw 的 读 写 : 


$ cat /proc/test_dir/test_rw 
0 


$ echo 111 > /proc/test_dir/test_rw 
$ cat /proc/test_dir/test_rw 


说 明 我 们 上 一 步 执 行 的 写 操作 是 正确 的 。 


在 Linux 3.10 及 以 后 的 版 本 中 ，“/proc” 的 内 核 API 和 实现 架构 变更 较 大 ，create_proc entry () 、create_proc read _entry () 之 类 的 API 都 被 删除 了 ， 取 而 代 之 的 是 直接 使 用 proc_create () 、 
proc_create_data () API。 同 时 ， 也 不 再 存在 read_proc () . write_proc () 之 类 的 针对 proc_dir_entry 的 成 员 函 数 了 ， 而 是 直接 把 file_operations 结 构 体 的 指针 传 入 proc_create () 或 者 
proc_create data () 函数 中 ， 其 原型 为 : 


static inline struct proc dir entry *proc_create( 

const char *name, umode t mode, struct proc dir entry *parent, 
const struct file operations *proc_fops) ; 

struct proc dir entry *proc_create data ( 

const char *name, umode t mode, struct proc dir entry *parent, 
const struct file_operations *proc_fops, void *data); 


我 们 把 代码 清单 21.6 的 范例 改造 为 同时 支持 Linux 3.10 以 前 的 内 核 和 Linux3.10 以 后 的 内 核 。 改 造 结果 如 代码 清单 21.7 所 示 。#if LINUX VERSION CODE<KERNEL VERSION (3, 10, 0) 中 的 部 分 是 
旧版 本 的 代码 ， 与 21.6 相 同 ， 所 以 省 略 了 。 


代码 清单 21.7 支持 Linux 3.10 以 后 内 核 的 /proc 文 件 系统 使 用 范例 


1#include <linux/module.h> 

2#include <linux/kernel.h> 

3#include <linux/init.h> 

4#include <linux/version.h> 

S#include <linux/proc_fs.h> 

6#include <linux/seq_file.h> 

7 

8static unsigned int variable; 

9static struct proc_dir entry *test_dir, *test_entry; 

10 

11#if LINUX_VERSION_CODE < KERNEL VERSION(3, 10, 0) 

12http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
13#else T 
14static int test_proc_show(struct seq file *seq, void *v) 

15{ 

16 unsigned int *ptr var = seq->private; 


17 seq_printf (seq, "Su\n", *ptr_var); 
18 return 0; 


19} 

20 

21static ssize t test_proc_write(struct file *file, const char user *buffer, 
22 size_t count, loff t *ppos) Bg 

23{ 


24 struct seq_file *seq = file->private_data; 

25 unsigned int *ptr_var = seq->private; 

26 

27 *ptr_var = simple _strtoul(buffer, NULL, 10); 

28 return count; 

29} 

30 

31static int test_proc_open(struct inode *inode, struct file *file) 
32{ 

33 return single open (file, test_proc_show, PDE_DATA(inode) ); 
34} 

35 

36static const struct file_operations test_proc_fops = 

37{ 

38 .owner = THIS MODULE, 

39 .open = test_proc_open, 

40 .read seq_read, 

41 .write = test_proc_write, 

42 .llseek = seq_lseek, 

43 .release = single release, 

44}; 

45#endif 

46 

47static _ init int test_proc_init (void) 

48{ 

49 test_dir = proc_mkdir("test_dir", NULL); 

50 if (test_dir) { a 

51#if LINUX VERSION CODE < KERNEL VERSION(3, 10, 0) 

52 http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
53#else 

54 test_entry = proc_create_data("test_rw",0666, test_dir, &test_proc_fops, &variable); 
55 if (test_entry) 


56 return 0; 

57#endif 

58 } 

55 

60 return -ENOMEM; 

61} 

62module_init (test_proc_init); 

63 

64static _ exit void test_proc_cleanup (void) 
65{ 


66 remove_proc_entry("test_rw", test_dir); 
67 remove_proc_entry("test_dir", NULL); 
68} 

69module_exit (test_proc_cleanup) ; 


21.6 Oops 


当 内 核 出 现 类 似 用 户 空间 的 segmentation Fault 时 (例如 内 核 访问 一 个 并 不 存在 的 虚拟 地 址 ) ，Oops 会 被 打印 到 控制 台 和 写 入 内 核 log 缓 冲 区 。 


我 们 在 globalmem.c 的 globalmem _read () 函数 中 加 上 下 面 一 行 代码 : 


} else { 
*ppos += count; 
ret = count; 


* (unsigned int *)0 = 1; /* a kernel panic */ 
printk (KERN_INFO "read %u bytes (s) from slun", count, p)? 


假设 这 个 字符 设备 对 应 的 设备 节点 是 /dev/globalmem， 通 过 cat/dev/globalmem 命 令 读 设备 文件 ， 将 得 到 如 下 Oops 信 息 : 


# cat /dev/globalmem 

Unable to handle kernel NULL pointer dereference at virtual address 00000000 
pgd = 9ec08000 

[00000000] *pgd=7£733831, *pte=00000000, *ppte=00000000 

Internal error: Oops: 817 [#1] SMP ARM 

Modules linked in: globalmem 

CPU: 0 PID: 609 Comm: cat Not tainted 3.16.0+ #13 

task: 9£7d8000 ti: 9£722000 task.ti: 9£722000 

PC is at globalmem_read+0xbe/0xcc [globalmem] 

LR is at 0x0 

pe : [<7£000200>] lr : [<00000000>] psr: 00000013 

9£723£30 ip : 00000000 fp : 00000000 

: 9f414000 r9 : 00000000 r8 : 00001000 

: 00000000 r6 : 00001000 r5 : 00001000 r4 : 00000000 

: 00000001 r2 : 00000000 rl : 00001000 r0 : 7£0003cc 

Flags: nzcv IRQs on FIQs on Mode SVC_32 ISA ARM Segment user 

Control: 10c53c7d Table: 7ec08059 DAC: 00000015 

Process cat (pid: 609, stack limit = 0x9£722240) 

Stack: (0x9f723£30 to 0x9f724000) 

3£20: 7ed5ff91 9£723£80 00000000 9£79ab40 
3£40: 00001000 7ed5eb18 9£723£80 00000000 00000000 800cb114 00000020 9£722000 
3f60: 9f5e4628 9f79ab40 9f79ab40 00001000 7ed5eb18 00000000 00000000 800cb2ec 
3£80: 00001000 00000000 9£7168c0 00001000 7ed5eb18 00000003 00000003 8000e4e4 
3fa0: 9£722000 8000e360 00001000 7ed5eb18 00000003 7ed5eb18 00001000 0000002f 
3fc0: 00001000 7ed5eb18 00000003 00000003 7ed5eb18 00000001 00000003 00000000 
3fe0: 0015c23c 7ed5eb00 0000£718 00008d8c 60000010 00000003 00000000 00000000 
[<7£000200>] (globalmem_read [globalmem]) from [<800cb114>] (vfs_read+0x98/0x13c) 
[<800cb114>] (vfs_read) from [<800cb2ec>] (SyS read+0x44/0x84) 

[<800cb2ec>] (SyS_read) from [<8000e360>] (ret_fast_syscal1+0x0/0x30) 

Code: e1a05008 e2a77000 elc360f0 €3a03001 (e58c3000) 

---[ end trace 5a36d6470da50d02 ]--- 

Segmentation fault 


上 述 Oops 的 第 一 行 给 出 了 “原因 ”， 即 访问 了 NULL pointer, OopsRAYPC is at globalmem_read+0xbcV/0Oxcc 这 一 行 代码 也 比较 关键 ， 给 出 了 “ 寻 


0xbc 字 节 的 指令 处 。 


通过 反 汇 编 globalmem.o 可 以 寻找 到 globalmem_read () 函数 开头 位 置 偏 移 0xbc 的 指令 ， 反 汇编 方法 如 下 : 


发 现场 ”， 即 globalmem _read () 函数 偏 移 


drivers/char/globalmem$ arm-linux-gnueabihf-objdump -d -S globalmem.o 


对 应 的 反 汇 编 代 码 如 下 ，global_read () 开始 于 0x144， 偏 移 0xbc 的 位 置 为 0x200: 


static ssize_t globalmem read (struct file *filp, char _ user * buf, size_t size, 


loff_t * ppos) 
{ 


144: e92d45£0 push tet; £5 EG; XT 28, SL, Ir} 
148: e24dd00c sub sp, sp, #12 
unsigned long p = *ppos; 
14c: 5934000 ldr r4, [r3] 
*ppos += count; 
1f4: e2a77000 adc Tlr rI 4R 
1f8: elc360f0 strd tő; [x3] 


ret = count; 

*(unsigned int *)0 = 1; /* a kernel panic */ 
lfc: e3a03001 mov £3) FL 
200: e58c3000 str r3; [ip] 

printk (KERN_INFO "read %u bytes(s) from %lu\n", count, p); 
204: se 
return ret; 


“str r3，[ip]” 是 引起 Oops 的 指令 。 这 里 仅仅 给 出 了 一 个 例子 ， 工 程 实践 中 的 “ 


21.7 BUG ON () 和 WARN_ON () 


发 现场 ”并 不 全 那么 容易 找到 ， 但 方法 都 是 类 似 的 。 


内 核 中 有 许多 地 方 调用 类 似 BUG () 的 语句 ， 它 非常 像 一 个 内 核 运行 时 的 断言 ， 意 味 着 本 来 不 该 执行 到 BUG () 这 条 语句 ， 一 旦 执行 即 抛 出 Oops。BUG () 的 定义 为 : 


#define BUG() do { \ 


printk("BUG: failure at %s:%d/%s()!\n", FILE, LINE , func); \ 
panic("BUG!"); \ 
} while (0) 


其 中 的 panic () 定义 在 kernelypanic.c 中 ,会 导致 内 核 骨 溃 ， 并 打印 Dops。 比 如 archyarmy/kernelydma.c 中 的 enable dma () 函数 : 


void enable_dma (unsigned int chan) 
{ 
dma_t *dma = dma_channel (chan) ; 
if (!dma->lock) 
goto free_dma; 
if (dma->active == 0) { 
dma->active = 1; 
dma->d_ops->enable (chan, dma) ; 
} 
return; 
free_dma: 
a printk (KERN ERR "dmatd: trying to enable free DMA\n", chan); 
BUG () ; 


上 述 代 码 的 含义 是 ， 如 果 在 dma->lock 不 成 立 的 情况 下 ， 驱 动 直接 调用 了 enable dma () ， 实 际 上 意味 着 内 核 的 一 个 bug。 


BUG () 还 有 一 个 变 体 叫 BUG_ON () ， 它 的 内 部 会 引用 BUG () ， 形 式 为 : 


#define BUG_ON(condition) do { if (unlikely(condition)) BUG(); } while (0) 


对 于 BUG_ON () 而 言 ， 只 有 当 括 号 内 的 条 件 成 立 的 时 候 ， 才 抛 出 Oops。 比 如 drivers/charvrandom.c 中 的 类 似 代码 : 


static void push_to_pool(struct work_struct *work) 
{ 
struct entropy_store *r = container of (work, struct entropy_store, 
push_work) ; 
BUG_ON(!r); > 
_xfer_secondary pool (r, random read wakeup bits/8); 
trace_push_to_pool(r->name, r->entropy count >> ENTROPY_SHIFT, 
r->pull->entropy_count >> ENTROPY SHIFT); 


除了 BUG_ON () 外 ， 内 核 有 个 稍微 弱 一 些 WARN_ON () ， 在 括号 中 的 条 件 成 立 的 时 候 ， 内 核 会 抛 出 栈 回溯 ， 但 是 不 会 panic () ， 这 通常 用 于 内 核 抽 出 一 个 警告 ， 暗 示 某 种 不 太 合理 的 事情 发 生 
了 。 如 在 kernel/locking/mutex-debug.c 中 的 debug_mutex_unlock() 函数 发 现 mutex_unlock () 的 调用 者 和 mutex lock () 的 调用 者 不 是 同一 个 线程 的 时 候 或 者 mutex 的 owner 为 空 的 时 候 ， 会 抛 出 


警告 信息 : 


回 


void debug_mutex_unlock(struct mutex *lock) 
{ 
if (likely (debug_locks)) { 
DEBUG LOCKS WARN ON(lock->magic != lock); 
if (!Tock->owner) 
DEBUG LOCKS WARN ON(!lock->owner) ; 
else a T > 
DEBUG LOCKS WARN ON(lock->owner != current); 
DEBUG LOCKS WARN ON(!lock->wait_list.prev && !lock->wait_list.next) ; 
mutex clear owner (lock) ; a ~ 


有 时 候 ，WARN_ON () 也 可 以 作为 一 个 调试 技巧 。 比 如 ， 我 们 进 到 内 核 某 个 函数 后 ， 不 知道 这 个 函数 是 怎么 一 级 一 级 被 调用 进来 的 ， 那 可 以 在 该 函数 中 加 入 一 个 WARN_ON (1) . 


21.8 strace 


在 Linux 系 统 中 ，strace 是 一 种 相当 有 效 的 跟踪 工具 ， 它 的 主要 特点 是 可 以 被 用 来 监视 系统 调用 。 我 们 不 仅 可 以 用 strace 调 试 一 个 新 开始 的 程序 ， 也 可 以 调试 一 个 已 经 在 运行 的 程序 (这 意味 着 把 strace 
绑 定 到 一 个 已 有 的 PID 上 ) 。 对 于 第 6 章 的 globalmem 字 符 设备 文件 ， 以 strace 方 式 运行 如 代码 清单 21.8 所 示 的 用 户 空间 应 用 程序 globalmem_test， 运 行 的 结果 如 下 : 


execve("./globalmem test", ["./globalmem test"], [/* 24 vars */]) = 0 

http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 

open ("/dev/globalmem", O_RDWR) = 3 /* 打开 的 /dev/globalmem 的 fd 是 3 */ 

ioct1(3, FIBMAP, 0) T =0 

read(3, Oxbff17920, 200) = -1 ENXIO (No such device or address)/* 读 取 失 败 */ 

fstat64(1, {st_mode=S IFCHR|0620, st_rdev=makedev(136, 0), http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/...}) = 0 
mmap2 (NULL, 4096, PROT_READ|PROT WRITE, MAP PRIVATE|MAP ANONYMOUS, -1, 0) = Oxb7£04000 T 

write(1, "-1 bytes read from globalmem\n", 29-1 bytes read from globalmem 


) = 29 /* 向 标准 输出 设备 (fd 为 1) B Aprinte pipe */ 
write(3, "This is a test of globalmem", 27) = 27 

write(1, "27 bytes written into globalmem\n", 3227 bytes written into globalmem 
) = 32 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 


输出 的 每 一 行 对 应 一 次 Linux 系 统 调用 ， 其 格式 为 “左边 = 右边 ” ， 等 号 左边 是 系统 调用 的 函数 名 及 其 参数 ， 右 边 是 该 调用 的 返 


> 


代码 清单 21.8 ”用 户 空间 应 用 程序 globalmem test 


1#include http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/0EBPS/Text/... 


2 

3#define MEM CLEAR 0x1 
4main () ~ 

5{ 

6 int fd, num, pos; 


7 char wr_ch[200] = "This is a test of globalmem"; 

8 char rd ch[200]; 

9 /* 打开 /dev/globalmem */ 

10 fd = open("/dev/globalmem", O_RDWR, S_IRUSR | S_IWUSR); 


11 if (fd != -1 ) { /* 清除 globalmem */ 

12 if (ioctl (fd, MEM CLEAR, 0) < 0) 

T3 printf ("ioctl command failed\n"); 

14 /* i#globalmem */ 

15 num = read(fd, rd_ch, 200); 

16 printf ("%d bytes read from globalmem\n", num) ; 
17 


18 /* Sglobalmem */ 

19 num = write(fd, wr ch, strlen(wr ch)); 

20  printf("%d bytes written into globalmem\n", num) ; 

21 http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
22 close (fd); = 

23 } 


使 用 strace 虽 然 无 法 直接 追踪 到 设备 驱动 中 的 函数 ， 但 是 足以 帮助 工程 师 进行 推演 ， 如 从 open ( "/dev/globalmem” , O_RDWR) =3 的 返回 结果 知道 /dev/globalmem 的 fd 为 3， 之 后 对 fd 为 3 的 文 
件 进行 read () 、write () 和 ioctl () 系统 调用 ， 最 终 会 使 globalmem 里 file operations 中 的 相应 函数 被 调用 ， 通 过 系统 调用 的 结果 就 可 以 知道 驱动 中 globalmem_read () 、globalmem write () 和 
globalmem ioctl () 的 运行 结果 。 


21.9 KGDB 


Linux 直 接 提 供 了 对 KGDB 的 支持 ，KGDB 采 用 了 典型 的 嵌入 式 系统 “ 播 柱 ”技巧 ， 一 般 依赖 于 串口 与 调试 主机 通信 。 为 了 支持 KGDB， 串 口 驱动 应 该 实现 纯粹 的 轮 询 收发 单一 字符 的 成 员 函 数 ， 以 供 
drivers/tty/serial/kgdboc.c 调 用 ， 壁 如 drivers/tty/serial/8250/8250_core.c 中 的 : 


static struct uart ops serial8250 pops = { 


#ifdef CONFIG_CONSOLE_POLL 
.Poll get char = serial8250 get poll char, 
.poll put char = serial8250 put poll char, 

#endif 

li 


在 编译 内 核 时 ， 运 行 make ARCH=arm menuconfig 时 需 选择 关于 KGDB 的 编译 项 目 ， 如 图 21.6 所 示 。 


KGDB: kernel debugger 
Arrow keys navigate the menu. <Enter> selects submenus ---> (or 
empty submenus ----). Highlighted letters are hotkeys. Pressing <Y> 
includes, <N> excludes, <M> modularizes features. Press <Esc><Esc> 
to exit, <?> for Help, </> for Search. Legend: [*] built-in [ ] 


|- 固 - KGDB: kernel debugger 


<*> KGDB: use kgdb over the serial console (NEW) 
[ ] GDB: internal test suite (NEW) 


[ ] GDB_KDB: include kdb frontend for kgdb (NEW) 


< Exit > < Help> <Save> < Load > 


A21.6 KGDB 编 译 选 项 配置 


对 于 目标 板 而 言 ， 需 要 在 bootargs 中 设置 与 KGDB 对 应 的 串口 等 信息 ， 如 kgdboc=ttyS0，115200kgdbcon。 


如 果 想 一 开机 内 核 就 直接 进入 等 待 GDB 连 接 的 调试 状态 ， 可 以 在 bootargs 中 设置 kgdbwait，kgdbwait 的 含义 是 启动 时 就 等 待 主机 的 GDB 连 接 。 而 若 想 在 内 核 启 动 后 进入 GDB 调 试 模式 ， 可 运行 echo 
g>/proc/sysrq_trigger 命 令 给 内 核 传 入 一 个 键 值 是 g 的 magic_sysrq。 


在 调试 PC 上 ， 依 次 运行 如 下 命令 就 可 以 启动 调试 并 连接 至 目标 机 (假设 串口 在 PC 上 对 应 的 设备 节点 是 /dev/ttyS0) : 


# arm-eabi-gdb ./vmlinux 

(gdb) set remotebaud 115200 

(gdb) target remote /dev/ttySO // 连 接 目 标 机 
(gdb) 


之 后 ， 在 主机 上 ， 我 们 可 以 使 用 GDB 像 调试 应 用 程序 一 样 调试 使 能 了 KGDB 的 目标 机 上 的 内 核 。 


21.10 ”使 用 仿真 器 调试 内 核 


在 ARM Linux 领 域 ， 目 前 比较 主流 的 是 采用 ARM DS-5Development Studio 方 案 。ARM DS-5 是 一 个 针对 基于 Linux 的 系统 和 裸 机 嵌入 式 系统 的 专业 软件 开发 解决 方案 ， 它 涵盖 了 开发 的 所 有 阶段 ， 从 


启动 代码 、 内 核 移植 直到 应 用 程序 调试 、 分 析 。 如 图 21.7 所 示 ， 它 使 用 了 DSTREAM 高 性 能 仿真 器 (ARM 已 经 停止 更 新 RVI-RVT2 仿 真 器 ) ， 在 Eclipse 内 包含 了 DS-5 和 DSTREAM 的 开发 插件 。 


调试 主机 一 般 通 过 网 线 与 DSTREAM 仿 真 器 连接 ， 而 仿真 器 则 连接 与 电路 板 类 似 的 JTAG 接 口 ， 之 后 用 DS-5 调 试 器 进行 调试 。DS-5 图 形 化 调试 器 提供 了 全 面 和 直观 的 调试 图 ， 非 常 易 于 调试 Linux 和 裸 机 
程序 ， 易 于 查看 代码 ， 进 行 栈 回溯 ， 查 看 内 存 、 寄 存 器 、 表 达 式 、 变 量 ， 分 析 内 核 线程 ， 设 置 断 点 。 
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421.7 DSTREAM 仿 真 器 和 DS-5 开 发 环境 


值得 一 提 的 是 ，DS-5 也 提供 了 Streamline Performance Analyzer, ARM Streamline 性 能 分 析 器 (T 


网 


21.8) 为 软件 开发 人 员 提供 了 一 种 用 来 分 析 和 优化 在 ARM926、ARM11 和 Cortex-A 系 列 平台 上 


运行 的 Linux 和 Android 系 统 的 直观 方法 。 使 用 Streamline，Linux 内 核 中 需 包含 一 个 gator 模 块 ， 用 户 空间 则 需要 使 能 gatord 后 台 服 务 器 程序 。 关 于 Streamline 具 体 的 操作 方法 可 以 查看 《ARM@ DS- 
5Using ARM Streamline》。 
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21.11 ”应 用 程序 调试 


在 嵌入 式 系统 中 ， 为 调试 Linux 应 用 程序 ， 可 在 目标 板 上 先 运行 GDBServer， 再 让 主机 上 的 GDB 与 目标 板 上 的 GDBServer 通 过 网 口 或 串口 通信 。 


1. 目 标 板 


要 运行 如 下 命令 启动 GDBServer: 


3 


gdbserver <host_ip>:<port> <app> 


<host_ip>: <port> 为 主机 的 IP 地 址 和 端口 ，app 是 可 执行 的 应 用 程序 名 。 


当然 ， 也 可 以 用 系统 中 空闲 的 串口 作为 GDB 调 试 器 和 GDBServer 的 底层 通信 手段 ， 如 : 


gdbserver/dev/ttyS0./tdemo 


2. 主 机 


需要 先 运行 如 下 命令 启动 GDB: 


arm-eabi-gdb <app> 


app 与 GDBServer 的 app 参 数 对 应 。 


之 后 ， 运 行 如 下 命令 就 可 以 连接 目标 板 : 


target remote <target_ip>:<port> 


<target_ip>: <port> 为 目标 机 的 IP 地 址 和 端口 。 


如 果 目 标 板 上 的 GDBServer 使 用 串口 ， 则 在 宿主 机 上 GDB 也 应 该 使 用 串口 ， 如 : 


(gdb) target remote/dev/ttyS1 


之 后 ， 便 可 以 使 用 GDB 像 调试 本 机 上 的 程序 一 样 调试 目标 机 上 的 程序 。 


3. 通 过 GDB server 和 ARM GDB 调 试 应 用 程序 


在 ARM 开 发 板 上 放置 GDB server， 便 可 以 通过 目标 板 与 调试 PC 之 间 的 以 太 网 等 调试 。 要 调试 的 应 用 程序 的 源 代码 如 下 : 


/* 
* gdb _ example.c: program to show how to use arm-linux-gdb 
+r 


void increase_one (int *data) 
{ *data = *data + 1; 
} 
int main(int argc, char *argv[]) 
{ int dat = 0; 
int *p = 0; 
increase_one (&dat) ; 
/* program will crash here */ 
increase_one (p) ; 
return 0; 


通过 debug 方 式 编译 它 : 


arm-linux-gnueabi-gcc -g -o gdb_example gdb example.c 


将 程序 下 载 到 目标 板 后 ， 在 目标 板 上 运行 : 


# gdbserver 192.168.1.20:1234 gdb example 
Process gdb example created; pid = 1096 
Listening on port 1234 


其 中 192.168.1.20 为 目标 板 的 31P，1234 为 GDBserver 的 侦 听 端口 。 


如 果 目 标 机 是 Android 系 统 ， 且 没有 以 太 网 ， 可 以 尝试 使 用 adb forward 功 能 ， 比 如 adb forward tcp: 1234tcp: 1234 是 把 目标 机 1234 端 口 与 主机 1234 端 口 进行 转发 。 


在 主机 上 运行 : 


$ arm-eabi-gdb gdb example… 


主机 的 GDB 中 运行 如 下 命令 以 连接 目标 板 : 


(gdb) target remote 192.168.1.20:1234 

Remote debugging using 192.168.1.20:1234 

http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
0x400007b0 in ?? () 


如 果 是 Android 的 adb forward, Ml _Eiktarget remote 192.168.1.20: 1234 中 的 IP 地 址 可 以 去 掉 ， 因 为 它 变 成 直接 连接 本 机 了 ， 可 直接 写成 target remote: 1234, 


运行 如 下 命令 将 断 点 设置 在 increase_one (&dat) ; 这 一 行 : 


(gdb) b gdb example.c:16 
Breakpoint 1 at 0x8390: file gdb example.c, line 16. 


通过 c 命 令 继续 运行 目标 板 上 的 程序 ， 发 生 断 点 : 


(gdb) c 

Continuing. 

http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15319/OEBPS/Text/... 
Breakpoint 1, main (argc=1, argv=Oxbead4eb4) at gdb_example.c:16 

16increase_one (&dat) ; 


运行 n 命 令 执 行 完 increase_one (&dat) ; 再 查看 dat 的 值 : 


(gdb) n 
19increase_one(p); (gdb) p dat 
$l =1 


发 现 dat 变 成 1。 继 续 运 行 c 命 令 ， 由 于 即将 访问 空 指针 ，gdb_example 将 崩 演 : 


(gdb) c 
Continuing. 
Program received signal SIGSEGV, Segmentation fault. 
0x0000834c in increase one (data=0x0) at gdb example.c:8 
8*data = *data + 1; 


我 们 通过 bt 命令 可 以 拿 到 backtrace: 


(gdb) bt 
#0 Ox0000834c in increase_one (data=0x0) at gdb_example.c:8 
#1 0x000083a4 in main (argc=1, argv=Oxbead4eb4) at gdb_example.c:19 


通过 info reg 命 令 可 以 查看 当时 的 寄存 器 值 : 


(gdb) info reg 

r00x0 0 
r10xbead4eb43199028916 
r20x1 1 

r30x0 0 
1+40x4001e5e01073866208 
r50x0 0 

160x826c33388 

r70x0 0 

r80x0 0 

r90x0 0 

r10 0x400250001073893376 
rll Oxbead4d443199028548 
r12 Oxbead4d483199028552 
sp O0xbead4d300xbead4d30 

lr 0x83a433700 

pe 0x834c0x834c <increase_one+24> 
fps 0x0 0 T 
cpsr 0x600000101610612752 


21.12 Linux 性 能 监控 与 调 优 工 具 


除了 保证 程序 的 正确 性 以 外 ， 在 项 目 开 发 中 往往 还 关心 性 能 和 稳定 性 。 这 时 候 ， 我 们 往往 要 对 内 核 、 应 用 程序 或 整个 系统 进行 性 能 优化 。 在 性 能 优化 中 常用 的 手段 如 下 。 


1. 使 用 top、vmstat、iostat、sysctl 等 常用 工具 


top 命 令 用 于 显示 处 理 器 的 活动 状况 。 在 缺 省 情况 下 ， 显 示 占 用 CPU 最 多 的 任务 ， 并 且 每 隔 5s 做 一 次 刷新 ; vmstat 命 令 用 于 报告 关于 内 核 线 程 、 虚 拟 内 存 、 磁 盘 、 陷 阱 和 CPU 活动 的 统计 信息 ; iostat 命 
于 分 析 各 个 磁盘 的 传输 闲 忙 状 况 ; netstat 是 用 来 检测 网 络 信息 的 工具 ; sar 用 于 收集 、 报 告 或 者 保存 系统 活动 信息 ， 其 中 ，sar 用 于 显示 数据 ，sar1 和 sar2 用 于 收集 和 保存 数据 。 
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sysctl 是 一 个 可 用 于 改变 正在 运行 中 的 Linux 系 统 的 接口 。 用 sysctlI 可 以 读 取 几 百 个 以 上 的 系统 变量 ， 例 如 用 sysctl-a 可 读 取 所 有 变量 。 


sysct| 的 实现 原理 是 : 所 有 的 内 核 参数 在 /proc/sys 中 形成 一 个 树 状 结构 ，sysctl 系 统 调 用 的 内 核 函数 是 sys_sysct|， 匹 配 项 目 后 ， 最 后 的 读 写 在 do_sysctl_strategy 中 完成 ， 如 


echo "1" > /proc/sys/net/ipv4/ip_forward 


就 等 价 于 : 


2. 使 用 高 级 分 析 手 段 ， 如 OProfile、gprof 


OProfile 可 以 帮助 用 户 识别 诸如 模块 的 占用 时 间 、 循 环 的 展开 、 高 速 缓存 的 使 用 率 低 、 低 效 的 类 型 转换 和 人 余 操 作 、 错 误 预 测 转移 等 问题 。 它 收集 有 关 处 理 器 事件 的 信息 ， 其 中 包括 TLB 的 故障 、 停 机 、 
存储 器 访问 以 及 缓存 命中 和 未 命中 的 指令 的 殷 取 数量 。 


OProfile 支 持 两 种 采样 方式 : 基于 事件 的 采样 (Event Based) 和 基于 时 间 的 采样 (Time Based) 。 基 于 事件 的 采样 是 OProfile 只 记录 特定 事件 (比如 L2 缓 存 未 命中 ) 的 发 生 次 数 ， 当 达到 用 户 设 定 
定 值 时 Oprofile 就 记录 一 下 ( 采 一 个 样 ) 。 这 种 方式 需要 CPU 内 部 有 性 能 计数 器 (Performace Counter) 。 基 于 时 间 的 采样 是 OProfile 借 助 OS 时 钟 中 断 的 机 制 ， 在 每 个 时 钟 中 断 ，OProfile 都 会 记录 一 次 
( 采 一 次 样 ) 。 引 入 它 的 目的 在 于 ， 提 供 对 没有 性 能 计数 器 的 CPU 的 支持 ， 其 精度 相对 于 基于 事件 的 采样 要 低 ， 因 为 要 借助 OS 时 钟 中 断 的 支持 ， 对 于 禁用 中 断 的 代码 ，OProfile 不 能 对 其 进行 分 析 。 


OProfile 在 Linux 上 分 两 部 分 ， 一 个 是 内 核 模块 (oprofile.ko) ， 另 一 个 是 用 户 空间 的 守护 进程 (oprofiled) 。 前 者 负责 访问 性 能 计数 器 或 者 注册 基于 时 间 采 样 的 函数 ， 并 将 采样 值 置 于 内 核 的 缓冲 区 
内 。 后 者 在 后 台 运行 ， 负 责 从 内 核 空间 收集 数据 ， 写 入 文件 。 其 运行 步骤 如 下 。 


1) 初始 化 opcontrol--init 
2) 配置 opcontrol--setup--event=http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15319/OEBPS/Text/... 
3) 启动 opcontrol--start 


4) 运行 待 分 析 的 程序 xxx 


5) 取出 数据 
opcontrol--dump 


opcontrol--stop 


a 


4541 Ropreport-|./xxx 


GNU gprof 可 以 打印 出 程序 运行 中 各 个 函数 消耗 的 时 间 ， 以 帮助 程序 员 找 出 众多 函数 中 耗 时 最 多 的 函数 ; 还 可 产生 程序 运行 时 的 函数 调用 关系 ， 包 括 调用 次 数 ， 以 帮助 程序 员 分 析 程 序 的 运行 流程 。 


GNU gprof 的 实现 原理 : 在 编译 和 


是 说 应 


程序 里 的 每 一 个 函数 都 会 调 


次 数 等 的 所 有 信息 。 


GNU gprof 的 基本 


1) 使 用 -pg 编译 和 链接 应 
2) 执行 应 


3) 使 用 gprof 程 序 分 析 应 有 


[链接 程序 的 时 候 (使 


法 如 下 。 


程序 。 


程序 生成 的 数据 。 


3. 进 行内 核 跟 踪 ， 如 LTTng 


LTTng (Linux Trace Toolkit-next generation， 官 方 
和 退出 ; 陷阱 /中 断 (Trap/Irq) 的 进入 和 退出 ; 
他 IPC/ 套 接 字 / 网 络 等 导 


内 存 分 配 /释放 等 ; H 


程序 并 使 它 生成 供 gprof 分 析 的 数据 。 


-pg 编译 和 链接 选项 ) ，gcc 在 应 用 程序 的 每 个 函数 中 都 加 入 名 为 mcount (_mcount 或 mcount， 依 赖 于 编译 器 或 操作 系统 ) 的 函数 ， 也 就 
mcount， 而 mcount 会 在 内 存 中 保存 一 张 函数 调用 图 ， 并 通过 函数 调用 堆栈 的 形式 查找 子 函 数 和 父 函 数 的 地 址 。 这 张 调用 图 也 保存 了 所 有 与 函数 相关 的 调用 时 间 、 调 


站 为 http://lttng.org/) 是 一 个 用 于 跟踪 系统 详细 运行 状态 和 流程 的 工具 ， 它 可 以 跟踪 记录 系统 中 的 特定 事件 。 这 些 事件 包括 : 系统 调用 的 进入 
进程 调度 事件 ;内 核定 时 器 ; 进程 管理 相关 事件 一 一 创建 、 唤 醒 、 信 号 处 理 等 ;文件 系统 相关 事件 一 一 open/read/write/seek/ioctl 等 ， 内 存 管理 相关 事件 


件 。 而 对 于 这 些 记录 ， 我 们 可 以 通过 图 形 的 方式 经 由 lttv-gui 查 看 ， 如 图 21.9 所 示 。 


4 使 F 


它 通过 压力 测试 来 判断 系统 的 
SCHED 测 试 、 命 令 功能 的 验证 测试 、 系 统 调用 功能 的 验 订 


5. 使 


? 
D 


LTP 进 行 压力 测试 


Linux Trace Toolkit Viewer 


LTP (Linux Test Project， 官 方 网 站 为 http://ltp.sourceforge.net/) 是 一 个 由 SGI 发 起 并 由 IBM 负 责 维护 的 合作 计划 。 它 的 目的 是 为 开源 社区 提供 测试 套件 来 验证 Linux 的 可 靠 性 、 健 壮 性 和 稳定 性 。 


稳定 性 和 可 靠 性 ， 在 工程 中 我 们 可 使 
测试 等 。 


LTP 测 试 套件 对 Linux 操 作 系 统 进 行 超 长 时 间 的 测试 ， 它 可 进行 文件 系统 压力 测试 、 硬 盘 MO 测 试 、 内 存 管理 压力 测试 、IPC 压 力 测 试 、 
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Process 
Compiler 
Binder Thread # 
Binder Thread # 
SurfaceFlinger 
DisplayEventThr 
bootanimation 
Binder Thread # 
BootAnimation 


CanenrCanira 


Trace 


/home/barry/training/debug/lttng-traced-data/trace-inand kernel 
/home/barry/training/debug/Ittng-traced-data/trace-inand kernel 
/home/barry/training/debug/Ittng-traced-data/trace-inand kernel 
/home/barry/training/debug/Ittng-traced-data/trace-inand kernel 
/home/barry/training/debug/Ittng-traced-data/trace-inand kernel 
/home/barry/training/debug/Ittng-traced-data/trace-inand kernel 
/home/barry/training/debug/Ittng-traced-data/trace-inand kernel 
/home/barry/training/debug/Ittngtraced-data/trace-inand kernel 


用 Benchmark 评 估 系 统 


可 


等 的 


21.13 Bes 


Linux 程 序 的 调试 ， 尤 其 是 内 核 的 调试 看 起 来 比较 复杂 ， 没 有 类 似 于 VC+ +、Tornado 的 IDE 开 发 环境 ， 最 常用 的 调试 手段 依然 是 文本 方式 的 GDB。 文 本 方式 的 GDB 调 试 器 功能 异常 强大 ， 当 我 们 使 用 习 


惯 后， 就 会 用 得 非常 自然 。 


样 。 


Brand PID TGID PPID CPU Birth -A 


648 643 562 
649 643 562 
650 643 562 


651 


643 
643 
653 
653 
653 


RA? 


Linux 内 核 驱 动 的 调试 方法 包括 “ 揪 桩 ”、 使 用 仿真 器 和 借 


除了 本 章 介绍 的 方法 外 ， 在 驱动 的 调试 中 很 可 能 还 会 借助 其 


0 
0 


© 


2000o oo 


print 


20005748305 


Tracefile CPUID Event Time(s) Time (ns) Event Description 
0 260025634 kernel.syscall_entry: 0.260025634 (/ho 
0 260026855 kernel.sched_schedule: 0.260026855 (/| 
0 260028076 kernel.syscall_exit: 0.260028076 (/ho 
syscall_entry 0 260029296 kernel. syscall_entry: 0.260029296 (/ho 
syscall_exit 0 260030517 kernel.syscall_exit: 0.260030517 (ho 
0 
0 
0 
~ 
s 


© 


syscall_entry 
sched_schedule 
syscall_exit 


syscall_entry 260031738 kernel.syscall_entry: 0.260031738 (/ho 
syscall_exit 260032958 kernel syscall_exit: 0.260032958 (/ho 
260034179 kernel syscall_entry: 0.260034179 (/ho 


2ENNIT ANN Larnal erha Fr en A DEANIE AM 


syscall_entry 


eohnd bee nikon 


,»xeeoooooe 8S 


244140 = ns 


图 21.9 LTTng 形 成 的 时 序 图 


于 Linux 的 Benchmark 的 包括 Imbench、UnixBench、AIM9、Netperf、SSLperf、dbench、Bonnie、Bonnie++、lozone、BYTEmark 等 ， 它 们 可 用 于 评估 操作 系统 、 网 络 、MMO 子 系统 、CPU 
性 能 ， 参 考 网 址 http://lbs.sourceforge.net/ 列 出 了 许多 Benchmark 工 具 。 


() 、Oops、strace 等 ， 在 大 多 数 情况 下 ， 原 始 的 printk () 仍然 是 最 有 效 的 手段 。 


他 的 硬件 或 软件 调试 工具 ， 如 调试 USB 驱 动 最 好 借助 USB 分 析 仪 ， 用 USB 分 析 仪 将 可 捕获 USB 通 信 中 的 数据 包 ， 如 同 网 络 中 的 Sniffer 软 件 一 


